深度分析 HORIZON 基準揭示大型語言模型長期任務失效機制與模型差異 長期任務常使大型語言模型代理失效。研究推出跨領域 HORIZON 基準,利用 3100+ 軌跡分析 GPT‑5 與 Claude 等模型的效能退化,並以 LLM‑as‑Judge 管線驗證失效歸因。結果顯示隨任務延伸失效顯著,提供未來提升長期代理可靠性的方向。