WorkBench 2026 - Agents Report

深度分析

2024年首次推出WorkBench基準測試，評估AI代理人在企業資料庫中的操作表現。2026年以原生工具呼叫取代文字解析，並加入成本與安全副作用評估。最新測試顯示最佳模型ClaudeOpus4.8完成89%任務，意外有害行動僅2.5%。顯著提升工作效率。