深度分析 AgentCollabBench:量化多代理系統的通訊拓樸與行為風險 多代理系統常藉同儕協作達到先進表現,但流程中隱匿的多跳失效,會在最終結果看似正確時悄悄破壞推理鏈。AgentCollabBench提出一套含人工驗證任務的診斷基準,透過注入可控干擾與四項行為指標(指令衰減、追蹤物持久性、共識污染、跨任務洩漏),在軟體工程、DevOps與資料工程三領域評估模型與通訊拓撲的脆弱性。