深度分析 RLVR 於視覺語言模型的空間推理突破:Ariadne 迷宮框架實驗與跨域驗證 研究指出 RLVR 可能僅放大預訓練行為,缺乏視覺推理驗證。作者以 Ariadne 合成迷宮調控難度,發現 RLVR 能突破基礎 VLM 0% 正確率的空間推理上限。零樣本測試於 MapBench 與 ReasonMap 亦顯著提升,顯示能力真實擴張。