長期任務失效 - Agents Report

深度分析

長期任務常使大型語言模型代理失效。研究推出跨領域 HORIZON 基準，利用 3100+ 軌跡分析 GPT‑5 與 Claude 等模型的效能退化，並以 LLM‑as‑Judge 管線驗證失效歸因。結果顯示隨任務延伸失效顯著，提供未來提升長期代理可靠性的方向。