深度分析
VAKRA 基準:評估企業場景中 AI 代理的工具呼叫、多跳推理與失敗模式
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
深度分析
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
決策情境圖
企業導入代理人時常以RAG檢索文件,但這只找資料不說明何者可用。決策情境圖將規則、例外與時間效度做成結構化圖表,並提供可追溯的決策路徑與已驗證行為基底,能降低多步工作流錯誤累積並增進可稽核性。系統亦在建置階段驗證行為以降低推理時成本與風險。
深度分析
MuDABench提出一套針對大型、半結構化文件庫的分析型問答基準。資料來自美中上市公司年度報告、ESG報告與公告,涵蓋逾80,000頁、332道分析題,平均每題約15份文件。作者同時提供以文件metadata為中心的多代理工作流程:規劃子查詢、逐文件抽取、批次正規化為JSON、以及以程式化分析彙總結果。