視覺推理 - Agents Report

深度分析

隨著多模態模型依賴獎勵式後訓練，傳統靜態影像問答資料受限於標註成本與重複性。研究提出TRON，透過生成器與驗證器即時產出新穎圖像‑問題對，並以可驗證規則給予確切回饋。實驗顯示，TRON‑DAPO在十項視覺推理基準上顯著提升多個大型VLM的表現。

深度分析

視覺推理常被侷限於單一推理型態，研究提出MoVT透過統一序列格式在單一模型內學習多種推理模式，並以AdaVaR兩階段訓練結合SFT與專門的AdaGRPO強化學習，讓模型能根據影像與問題情境自適應選擇最佳推理模式。實驗顯示在多項基準上帶來穩定效能提升。

速報

此研究指出，大型多模態模型在解空間視覺謎題時會產生「心象」。研究團隊微調Qwen3.5VLM，讓模型從初始狀態預測解題動作序列，並觀察每步激活是否反映中間視覺狀態。結果顯示，將少量視覺token整合進思考鏈可提高解題成功率，平均從83%提升到89%。

深度分析

研究以改編的臨床智力測驗與新建的 AIQ 基準，評估多模態生成式模型的認知輪廓；發現語言理解與工作記憶表現接近或超越人類常模，而視覺感知與組織推理則長期低迷；語言化抽象推理成長迅速但視覺類比成長緩慢，顯示架構偏向語言符號處理，挑戰現行以擴展資料和算力為主的 AGI 進路。