深度分析 VAKRA 可執行基準:評估企業級 AI 代理人的多步推理與工具呼叫軌跡 IBM 發表 VAKRA,一套可執行的基準測試平台,模擬企業環境中代理人對本地 API 與文件集合的多步工作流程。VAKRA 包含超過 8,000 個本地 API、62 個領域,任務涵蓋單步到多步、多源與政策約束情境,透過工具呼叫軌跡檢驗代理人是否以正確而可驗證的程序取得答案。