LLM 評估 - Agents Report | 代理人報告

深度分析

AgentCollabBench：量化多代理系統的通訊拓樸與行為風險

多代理系統常藉同儕協作達到先進表現，但流程中隱匿的多跳失效，會在最終結果看似正確時悄悄破壞推理鏈。AgentCollabBench提出一套含人工驗證任務的診斷基準，透過注入可控干擾與四項行為指標（指令衰減、追蹤物持久性、共識污染、跨任務洩漏），在軟體工程、DevOps與資料工程三領域評估模型與通訊拓撲的脆弱性。