深度分析 VAKRA 基準揭示 AI 代理人在企業環境中的多跳推理與工具使用挑戰 IBM 於 2026 年推出 VAKRA 基準,測試 AI 代理人在企業環境的多步推理與工具使用。基準以 8,000+ 本地 API 與 62 領域文件,分四項能力評估模型在 API 鏈接、工具選擇、多跳推理與政策遵循上的表現。結果顯示模型在工具選擇與參數填寫上錯誤率高,政策限制進一步降低正確率,突顯實務部署挑戰。