多代理系統 - Agents Report

深度分析

BenchAgent：比較單一與多代理LLM工作流在效能與代幣成本上的差異

隨著LLM代理人從單一循環擴展至多代理與動態工作流，研究者推出BenchAgent統一評估單代理、固定及演化多代理的執行與記錄。實驗在十項基準顯示，多代理大多未超過單代理，僅EvoAgent略勝。GAIA測試中，Claude‑Code工作流在高階層級達66.72%正確率，突顯工作流設計對效能的影響。