多跳推理 - Agents Report

深度分析

IBM VAKRA 基準：評估 AI 代理在企業工作流中的 API 呼叫與政策遵循

IBM 研究推出 VAKRA 基於工具的企業級代理基準，測試跨 API 與文件的多步推理，包含 API 鏈接、儀表板選擇、多跳推理與政策遵循四大能力，結果顯示主流大模型在多階段工作流仍表現不足，影響未來商業部署。評分結合工具呼叫序列與最終答案的雙層驗證，突顯政策遵循與多源資訊整合的挑戰。

深度分析

GeometrE：全幾何盒子模型實現可解釋的多跳知識圖譜推理

研究聚焦於知識圖譜多跳推理，提出 GeometrE 以盒子嵌入直接映射邏輯運算，並加入傳遞損失函式。實驗在標準基準上超越現有最先進方法，提升解答正確率與可解釋性，同時省去神經網路學習邏輯層，保留完整幾何可視化。此框架有望推動開源幾何規劃工具生態，並在自駕與機器人導航等實務領域帶來新方向。

深度分析

Rasa 稀疏關係感知注意力：突破 Transformer 多跳推理瓶頸

Transformer 在多跳關係推理上受限於電路複雜度，需要 Ω(k) 層深度。研究提出 Rasa（Relation‑Aware Sparse Attention）加入稀疏鄰接遮罩與關係類型偏置，將注意力搜尋空間從 2^{n^2} 縮減至 2^{m}。在 MetaQA 3‑跳問題上達到 97.7% 正確率，較 EmbedKGQA 提升近 3 個百分點。

深度分析

VAKRA 基準：評估企業場景中 AI 代理的工具呼叫、多跳推理與失敗模式

VAKRA是可執行的工具導向基準，評估AI代理在企業場景跨API與文件的多步組合推理與執行能力。它要求代理在本地數千個API與多領域資料庫中產生完整工具呼叫軌跡並以執行結果驗證推理。研究發現現有模型在端到端工作流上普遍表現不佳，主要失誤集中於工具選擇、參數填寫與政策遵循。

速報

HEAR：基於分層超圖本體的企業推理代理

大型語言模型在異質企業系統上易出現幻覺且難以完成多跳n元推理。HEAR以分層超圖本體建構，圖層管理有溯源的資料介面，超邊層編碼n元商業規則與程序。透過證據驅動的推理迴圈，HEAR無需重新訓練模型即能協調本體工具並達到高準確度。在供應鏈評測顯示最高94.7%準確度，且能降低代幣成本。

深度分析

以關係感知稀疏注意力（Rasa）在 Transformer 上強化多跳知識圖譜推理

Transformer在語言與多模態任務上表現卓越，但面對需要沿著圖結構連續追溯關係的多跳推理仍有架構性限制。論文從電路複雜度角度指出，標準Transformer屬於TC0類別，常數深度無法解決圖連通性，因而需要隨跳數成長的層數。

深度分析

GRAVITY 結構化錨點：生成時注入拓撲記憶以彌補檢索與生成之間的推理缺口

長期對話代理常因檢索到的片段缺乏關聯與時序結構，導致多段推理失準。GRAVITY提出三類生成時錨點（實體、事件、主題），離線萃取並在生成時注入結構化上下文，提升模型在跨會話與時間推理上的準確度。實驗顯示，GRAVITY能在多種記憶系統上帶來可觀改善，特別在檢索品質較差時更顯成效。

深度分析

VAKRA 基準揭示 AI 代理人在企業環境中的多跳推理與工具使用挑戰

IBM 於 2026 年推出 VAKRA 基準，測試 AI 代理人在企業環境的多步推理與工具使用。基準以 8,000+ 本地 API 與 62 領域文件，分四項能力評估模型在 API 鏈接、工具選擇、多跳推理與政策遵循上的表現。結果顯示模型在工具選擇與參數填寫上錯誤率高，政策限制進一步降低正確率，突顯實務部署挑戰。

深度分析

零樣本本地大型語言模型構建高效知識圖譜：自洽與群眾智慧機制

本研究針對知識圖譜建構提出零樣本管線，全部在本地硬體執行。透過多模型自洽與人工群眾智慧提升多跳推理表現，取得 0.55 的精確匹配。此成果顯示在資源受限環境仍能有效建構與運用知識圖譜。