深度分析 BenchAgent:比較單一與多代理LLM工作流在效能與代幣成本上的差異 隨著LLM代理人從單一循環擴展至多代理與動態工作流,研究者推出BenchAgent統一評估單代理、固定及演化多代理的執行與記錄。實驗在十項基準顯示,多代理大多未超過單代理,僅EvoAgent略勝。GAIA測試中,Claude‑Code工作流在高階層級達66.72%正確率,突顯工作流設計對效能的影響。