多步推理 - Agents Report

深度分析

GRASP：粒度感知檢索策略的強化學習多步推理框架

隨著大型語言模型在多步推理上需求提升，傳統單次檢索已不足。研究提出 GRASP，透過強化學習讓模型在語意搜尋、關鍵字搜尋與段落閱讀間動態切換，僅在需要時擴充上下文。實驗顯示在 HotpotQA、2WikiMultiHopQA 與 MuSiQue 上，其檢索召回與問答正確率均超過現有單步與提示式基線。

深度分析

企業級 AI 代理人評測標準 VAKRA：四大能力、模型表現與未來走向

VAKRA 是 IBM 研發的企業級 AI 代理人基準，提供 8,000+ 本地 API 與跨 62 領域資料庫的多步工作流程測試。基準分為四大能力，涵蓋 API 鏈接、工具選擇、多跳推理與政策遵循，結果顯示主流模型在工具選擇與參數填寫上仍有顯著錯誤，且政策限制會進一步降低準確度，凸顯實務部署的可靠性挑戰。

深度分析

RecaLLM：顯式上下文檢索與受限解碼破解長鏈推理思緒遺失

研究指出長鏈推理時模型檢索能力會衰退，稱為思緒遺失。RecaLLM 交替執行推理與顯式上下文檢索，並使用受限解碼直接複製證據段落以提升根據性。實驗顯示在 RULER 與 HELMET 基準上取得顯著提升，且在 128K token 視窗下僅需 10K token 訓練樣本即可改善長上下文效能。