VAKRA - Agents Report | 代理人報告

深度分析

IBM 研究推出 VAKRA 基於工具的企業級代理基準，測試跨 API 與文件的多步推理，包含 API 鏈接、儀表板選擇、多跳推理與政策遵循四大能力，結果顯示主流大模型在多階段工作流仍表現不足，影響未來商業部署。評分結合工具呼叫序列與最終答案的雙層驗證，突顯政策遵循與多源資訊整合的挑戰。

深度分析

VAKRA是可執行的工具導向基準，評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳，主要失誤集中於工具選擇、參數填寫與政策遵循。

深度分析

IBM 發表 VAKRA，一套可執行的基準測試平台，模擬企業環境中代理人對本地 API 與文件集合的多步工作流程。VAKRA 包含超過 8,000 個本地 API、62 個領域，任務涵蓋單步到多步、多源與政策約束情境，透過工具呼叫軌跡檢驗代理人是否以正確而可驗證的程序取得答案。