benchmarking - Agents Report

深度分析

CODS2025資產運維競賽在隱匿場景與隱私約束下評估多代理人工智慧系統。比賽透過分軌設計分別測驗規劃與執行，並以公開開發與隱藏驗證雙階段進行。分析指出公開排名與隱藏執行分數不相關，凸顯排行榜對部署魯棒性預測力不足。競賽資料與評分追蹤已公開釋出，作者提出可移植診斷與建議。