企業工作流程 - Agents Report

深度分析

VAKRA 基準揭示 AI 代理人在企業環境中的多跳推理與工具使用挑戰

IBM 於 2026 年推出 VAKRA 基準，測試 AI 代理人在企業環境的多步推理與工具使用。基準以 8,000+ 本地 API 與 62 領域文件，分四項能力評估模型在 API 鏈接、工具選擇、多跳推理與政策遵循上的表現。結果顯示模型在工具選擇與參數填寫上錯誤率高，政策限制進一步降低正確率，突顯實務部署挑戰。