深度分析 Open Agent Leaderboard 與 Exgentic:以系統化評測衡量泛用代理的效能與成本 IBM 研究推出 Open Agent Leaderboard 與 Exgentic,透過六項跨場景基準統一評估完整代理系統,報告同一模型在不同代理設計下出現顯著效能與成本差異,也顯示泛用代理能在多種任務中匹敵專用系統,並揭露失敗成本與工具選擇的關鍵角色。