深度分析 - Agents Report | 代理人報告 (Page 37)

深度分析

語意抽象框架：透過三層知識庫與可靠斷言定義 AI 可信輸出

隨著AI助理與自動化代理廣泛部署，研究提出一套語意框架將AI系統視為工程抽象，區分領域知識、參考來源與系統可用資訊，進一步定義常見失誤如外推與過時來源。此框架有助於檢驗系統輸出與真實世界的對應，提升可信度。此方法亦可比較現行提示工程與知識圖譜整合的差異，預期將影響AI開發者驗證模型輸出與法遵需求的流程。

深度分析

線性高斯模型下貝葉斯因果探索於潛在混雜的失效機制分析

研究指出貝葉斯因果結構學在存在兩變量潛在混雜時會產生虛假邊緣，當樣本量增大臨界相關係數下降，導致錯誤圖形的後驗機率提升，並依據局部碰撞結構分為兩種失效情形：一是完全連通導致等價類擴大，二是形成新碰撞使等價類縮小，最終影響邊緣可信度與未來因果推論的可靠性。

深度分析

LDT‑Coord 輕量化數位孿生協調框架：降低異質 LLM 代理人通信成本 70 倍

隨著異質大型語言模型驅動的具身代理人在智慧工廠等場景陸續部署，協調成本成瓶頸。LDT‑Coord 以輕量化數位孿生作為中介，代理人上報結構化動作與資源時序限制，由規則式協調器即時解衝突，實驗顯示在保持相似成功率下，通信開銷減少逾70倍，且對模型異質性具韌性。

深度分析

OpenProver：結合 Lean4 與大型語言模型的代理式互動自動定理證明系統

隨著大型語言模型結合可驗證回饋，OpenProver以Planner-Worker-Verifier架構將Lean4形式驗證納入自動定理證明；系統支援互動式終端，讓使用者即時監控與引導證明流程。實驗顯示在ProofNet上的成功率比線性基線提升超過20%。

深度分析

大型語言模型 × 時間序列基礎模型：Neuro‑Agentic 控制提升工業物聯網防護

隨著工業物聯網遭受惡意攻擊，傳統規則式監控已難以因應。研究提出結合大型語言模型與時間序列基礎模型的神經代理式控制框架，透過「反事實物理注入」在數值潛在空間模擬介入效果，篩除幻覺與不安全動作。實驗在 SWaT 資料集上顯示，較 LSTM、TCN 分別提升 33.3% 與 20% 的防護成功率，且未執行任何物理無效指令。

深度分析

評估大型語言模型長程規劃能力：Long‑Horizon‑Terminal‑Bench 與實驗結果

研究推出 Long‑Horizon‑Terminal‑Bench，收錄 46 項跨九大類的長程終端任務，採用子任務密集獎勵機制，讓代理人在完成最終目標前即可獲得部分分數。測試 15 種前沿模型發現，最高通過率僅 15.2%，顯示長程執行仍是主要挑戰與瓶頸。

深度分析

GATS：圖增強樹搜尋結合分層世界模型的高效 LLM 代理人規劃

大型語言模型在多步規劃中面臨成本與不確定性挑戰。研究提出GATS結合UCB1樹搜尋與三層世界模型，省去規劃期間的LLM呼叫，達到100%成功率。相較於LATS每任務約37次LLM呼叫，GATS免除呼叫且計畫零變異。在12項挑戰測試中，GATS同樣維持100%成功。

深度分析

「CogniConsole」：透過推理時控制提升大型語言模型可靠性

隨著大型語言模型廣泛應用，可靠性傳統被視為模型能力問題。研究提出 CogniConsole，將推理時控制外部化為結構化介面，結合程式化協調與受限提示推理。實驗顯示在相同模型下，提升結構化程度可顯著降低輸出變異與失敗率，此方法挑戰僅靠擴大模型規模提升可靠性的觀點，並為未來 AI 代理系統的設計與評估提供新方向。

深度分析

「ParallelepipedoNN」利用格路徑遍歷提升 MLP 對抗樣本魯棒性形式化驗證

針對人工智慧安全中的對抗魯棒性問題，本研究提出 ParallelepipedoNN 框架，將多層感知器的驗證過程轉化為格路徑遍歷問題。透過定義健全與完整認證，並利用格遍歷算子進行迭代精煉，該系統能精確計算出最大健全與最小完整區間。研究結果顯示，此方法能克服傳統凸鬆弛方案的低精準度問題，並為魯棒性優化提供非平凡解的決定性保證。

深度分析

DeepSeek 降價背後：AI Agent 造成的 Token 放大效應與成本挑戰

DeepSeek V4-Pro 模型大幅降價 75% 卻未能緩解企業 AI 成本壓力，主因在於 AI Agent 運作時會產生 100 倍以上的 Token 放大效應。透過複雜的規劃、檢索與工具調用循環，單一請求的 Token 消耗量可達 1:700 比例。這導致傳統按座席計費的 SaaS 模式失效，高價值用戶反而導致毛利下降，企業必須透過編排層技術優化成本管理。

深度分析

NVIDIA 推出單卡一天完成的領域專用嵌入模型微調流程，提升 RAG 檢索效能

通用嵌入模型常在處理企業專業文件時失效，導致 RAG 系統檢索精度不足。NVIDIA 推出一套微調流程，利用 LLM 自動生成合成問答對並挖掘硬負樣本，同時引入多跳查詢以強化複雜語意推理。該方案僅需單張 GPU 在一天內即可完成訓練，實測可提升 Recall@10 與 NDCG@10 逾 10%，顯著優化專業領域的檢索效能。

深度分析

IBM 推出 Granite 4.0 3B Vision 企業文件多模態視覺語言模型

IBM於2026年發表Granite4.03BVision，針對企業文件的表格、圖表與鍵值對進行深度視覺語言解析。模型結合ChartNet合成圖表資料與DeepStack視覺特徵注入，提升精準度。測試顯示在圖表與表格基準上領先同類模型，預計加速企業文件自動化流程。