深度分析
VAKRA 基準:評估企業場景中 AI 代理的工具呼叫、多跳推理與失敗模式
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
深度分析
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
深度分析
IBM 發表 VAKRA,一套可執行的基準測試平台,模擬企業環境中代理人對本地 API 與文件集合的多步工作流程。VAKRA 包含超過 8,000 個本地 API、62 個領域,任務涵蓋單步到多步、多源與政策約束情境,透過工具呼叫軌跡檢驗代理人是否以正確而可驗證的程序取得答案。