LLM 代理人 - Agents Report

深度分析

SAGA 架構：以 LLM 代理人與衝突即特徵機制自動生成大規模時序圖基準

時序圖基準數據集因隱私與標註成本而稀缺。SAGA 提出「骨架優先、語意後置」架構，先以 O(1) 演算法生成冪律圖結構，再透過 LLM 代理人注入領域語意，最後以「衝突即特徵」機制自動產出異常標籤。單張 H100 可在 90 分鐘內生成 50 萬條時序邊，並支援零程式碼領域切換。

速報

經驗基礎 LLM 代理人大幅提升災害模擬真實度

大型語言模型（LLM）代理人常用於模擬災害情境下的人類行為，但生成式推理常偏離實際群體模式。最新研究提出經驗基礎LLM代理人框架，將人口統計、時間使用調查數據與城市脈絡融入代理人決策。驗證顯示，正常與熱浪條件下模擬準確度相關係數分別從0.528與0.349提升至0.912與0.836，誤差大幅降低，真實反應捕捉率從20.6%提高到46.4%。

深度分析

MCPEvol‑Bench：衡量 LLM 代理人在 MCP 伺服器演化環境中的適應能力

隨著MCP伺服器成為LLM與工具接點的核心基礎設施，現有基準未考慮工具介面持續演化。研究提出MCPEvol‑Bench，模擬11種變異操作在123台伺服器上生成多版本工具集，測試12大模型的適應性。結果顯示即使是前沿模型在演化環境中也會下降近14%，凸顯動態工具環境下的脆弱性。

Infographic on AgentCheck, an LLM agent testing platform.

深度分析

AgentCheck：全流程 LLM 代理人故障注入、重現與修補測試平台

隨著LLM代理人廣泛部署，工具失效成為關鍵風險。AgentCheck以MCP伺服器為介面，先錄製正常回應，再注入十二種工具故障，提供可重現‑介入‑驗證的工作流程。實驗顯示最高代理人在120場景中通過105場，揭露沉默的資料品質錯誤是主要弱點，亦值得關注。

深度分析

AutoTrace：結合 LLM 代理人與程式屬性圖的跨函式漏洞觸發定位技術

傳統漏洞偵測只告訴哪個函式可能有問題，卻無法指出具體觸發語句。AutoTrace以大型語言模型代理人搭配程式屬性圖逐層探索，透過確定性驗證門只在取得完整證據後回報觸發點，成功定位跨多層呼叫的漏洞觸發語句。實驗顯示在InterPVD基準上達到75%VulnHit與81%FuncHit，超過既有工具。

An infographic comparing an unsafe commit path (left) with CommitGuard's secure, authorized commit boundary (right) for LLM agents.

深度分析

LLM 代理人授權提交模型與 CommitGuard：從暫時授權到安全防護的實驗研究

LLM代理人在可變環境中常依賴暫時授權，如DOM快照或批准令牌，本文提出提交時授權概念，定義四項邊界檢查，並以54個任務測試，發現即使最終結果看似正確，仍有高比例未授權提交，此現象在瀏覽器、工具與多代理人三大場景皆觀測到，未授權提交比例高達77%。CommitGuard可於提交點阻擋陳舊操作。

深度分析

利用 Program‑Guided 堆疊分頁提升大型語言模型 SOP 執行效能

企業代理人在長期、條件式且安全關鍵的標準作業流程（SOP）上常因文字提示混雜而出錯。研究提出將 SOP 轉譯為可執行的偽代碼，並以程式導向的堆疊機制僅載入當前活躍框架，由大型語言模型負責語意執行。實驗顯示，對兩款高效能模型在七個領域皆提升拒絕正確率至100%，並在銀行測試中整體通過率提升至92.8%。

深度分析

Spider 2.0‑AIFunc：首個評估 AI 原生 SQL 工作流的企業基準

隨著雲端資料平台將大型語言模型以AI函式內建於SQL，研究團隊推出Spider2.0‑AIFunc基準，收錄465筆跨125個真實資料庫，測試六種SnowflakeCortexAI函式。評估顯示最高執行正確率70%（私有模型），開源模型最高58%，差距主要來自欄位對應與函式參數設定。

深度分析

回溯控制探測鏈：利用隱藏層預測提前中止 LLM 代理人任務，節省近 50% 推論算力

LLM代理人在多步任務中常在失敗前耗盡算力。研究利用隱藏層激活的線性探測器於首輪即預測失敗，構建六階段回溯控制探測鏈，每關以Clopper–Pearson校準門檻保證召回，於90%成功召回下，Qwen‑2.5‑7B與Llama‑3.2‑3B分別節省約47%與37%推論計算。

深度分析

SkillReranker：結構化任務‑技能圖提升 LLM 代理人效率與成功率

隨著技能庫規模擴大，傳統僅靠語意相似選擇易產歧義。SkillReranker 透過任務與技能分解，構建有向無環執行圖，劃分子任務並在段內重新排序，提升完成率、減少互動步數與 token 用量。相較於固定Top‑k檢索，SkillReranker能根據任務難度自調技能數量，兼顧效能與資源效率。

速報

PolyWorkBench：多語言長程工作流程的 LLM 代理人基準測試

研究針對大型語言模型（LLM）代理人在多語言長程工作流程中的表現，推出全新基準 PolyWorkBench，涵蓋商務、知識工作、法律、在地化與製造五大領域，共 67 項任務。測試要求代理人處理多語言輸入、迭代推理、呼叫外部工具並產出結構化結果，並以結構評分、可執行驗證與語意評估三層框架進行評估。

深度分析

結構化不確定性導向的 LLM 代理人澄清機制與實驗驗證

LLM 代理人在工具呼叫時常因指令模糊導致失敗。研究者以結構化不確定性和 EVPI 量化澄清問題價值，並加入成本模型避免冗餘提問。實驗顯示，SAGE-Agent 提升任務覆蓋 7%~39%，澄清次數減半以上，訓練效果亦顯著提升。