長程推理 - Agents Report

深度分析

MRAgent 記憶重構框架：Cue‑Tag‑Content 主動檢索降低 Token 消耗

研究指出長程推理受限於上下文窗口，NUS推出的MRAgent採用Cue‑Tag‑Content主動記憶重建，將每次查詢的Token消耗降至約12萬，成本與延遲皆顯著降低。在LoCoMo與LongMemEval基准測試中，MRAgent超越A‑Mem、LangMem等方案，將執行時間縮短近一半。

深度分析

阿里 Qwen3.7-Max 技術解析：長程推理、環境擴展與跨框架通用性

阿里巴巴旗下 Qwen 團隊發布 Qwen3.7-Max，將大型語言模型從短時生成推向「馬拉松式」代理人運作。該模型強調長程推理與環境擴展（environment scaling），在孤立伺服器上以未見過的硬體進行內核優化任務，連續自動運作約35小時、執行超過一千次工具呼叫並達到約10.0倍的幾何平均速度提升。

深度分析

自適應承諾深度：在 VLM 中學習何時重規劃以優化長程視覺推理

長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數，由單一VLM同時預測執行動作與持續步數，實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究

深度分析

大型語言模型規模與隱性規劃能力的正相關研究

大型語言模型在未明示規劃下仍能完成多步任務。本研究以 Qwen‑3 系列測試隱性規劃，發現規模越大內部規劃表徵越明顯，能提前影響詞彙選擇。結果顯示模型規模與規劃能力呈正相關，為未來多步推理提供方向。

深度分析

SPPO：序列層級 PPO 在長程推理任務中的突破性方法

本研究針對大型語言模型在長程推理任務的時間信用分配問題提出 SPPO，將推理重新定義為序列層級情境式多臂賭徒，利用解耦標量價值函數獲取低變異優勢訊號，免除多樣本基線估計。實驗結果顯示其效能顯著優於標準 PPO，且與計算密集的群組方法相當，提升對齊效率。