Ariadne 迷宮框架 - Agents Report

深度分析

研究指出 RLVR 可能僅放大預訓練行為，缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度，發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升，顯示能力真實擴張。