深度分析
VAKRA 基準:評估企業場景中 AI 代理的工具呼叫、多跳推理與失敗模式
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
深度分析
VAKRA是可執行的工具導向基準,評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳,主要失誤集中於工具選擇、參數填寫與政策遵循。
速報
大型語言模型在異質企業系統上易出現幻覺且難以完成多跳n元推理。HEAR以分層超圖本體建構,圖層管理有溯源的資料介面,超邊層編碼n元商業規則與程序。透過證據驅動的推理迴圈,HEAR無需重新訓練模型即能協調本體工具並達到高準確度。在供應鏈評測顯示最高94.7%準確度,且能降低代幣成本。
深度分析
Transformer在語言與多模態任務上表現卓越,但面對需要沿著圖結構連續追溯關係的多跳推理仍有架構性限制。論文從電路複雜度角度指出,標準Transformer屬於TC0類別,常數深度無法解決圖連通性,因而需要隨跳數成長的層數。
深度分析
長期對話代理常因檢索到的片段缺乏關聯與時序結構,導致多段推理失準。GRAVITY提出三類生成時錨點(實體、事件、主題),離線萃取並在生成時注入結構化上下文,提升模型在跨會話與時間推理上的準確度。實驗顯示,GRAVITY能在多種記憶系統上帶來可觀改善,特別在檢索品質較差時更顯成效。
深度分析
IBM 於 2026 年推出 VAKRA 基準,測試 AI 代理人在企業環境的多步推理與工具使用。基準以 8,000+ 本地 API 與 62 領域文件,分四項能力評估模型在 API 鏈接、工具選擇、多跳推理與政策遵循上的表現。結果顯示模型在工具選擇與參數填寫上錯誤率高,政策限制進一步降低正確率,突顯實務部署挑戰。
深度分析
本研究針對知識圖譜建構提出零樣本管線,全部在本地硬體執行。透過多模型自洽與人工群眾智慧提升多跳推理表現,取得 0.55 的精確匹配。此成果顯示在資源受限環境仍能有效建構與運用知識圖譜。