推理模型

推理長度偏誤R1分析圖

深度分析

長度驅動的選項位置偏誤：Chain-of-Thought 與 R1 推理模式的比較分析

研究檢視Chain-of-thought推理與R1類推理模型在選擇題的選項位置偏誤。作者以多個推理設定與資料集分析軌跡長度與偏誤關係，並以截斷實驗驗證因果性。結果顯示推理軌跡越長，位置偏誤越高且在大模型上仍有殘存，提示評測流程需考量此機制。

語言模型代理人探索格子DAG

深度分析

可測量的探索與利用錯誤：語言模型代理人在部分可觀測格子環境中的新評估方法

語言模型代理人在開放式決策任務中需同時具備探索與利用能力。研究者設計了可程式調整難度的部分可觀測 2D 格子環境，並提出政策無關的探索與利用錯誤度量。實驗顯示即便是最先進模型仍有明顯失敗模式，推理模型經簡易調整後表現顯著提升，為未來 AI 代理人評估提供新基準。