深度分析
MAVEN:模組化驗證與執行框架提升 GPT‑OSS‑120b 代理人任務正確率
隨著大型語言模型被用於自動化工具呼叫,通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證,並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下,MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。
深度分析
隨著大型語言模型被用於自動化工具呼叫,通用性仍是挑戰。研究提出 MAVEN 框架以結構化分解、適應性工具編排與中間驗證,並打造 MAVEN‑Bench 壓力測試基準。實驗顯示在不額外訓練下,MAVEN 將 GPT‑OSS‑120b 的正確率從 48% 提升至 71%。
深度分析
研究探討下一代大語言模型代理人在重複競合環境下是否仍具合作傾向。以迭代囚徒困境、策略生成與Moran演化模擬,測試三種提示風格與跨供應商模型。結果顯示多數模型與提示仍傾向合作,但供應商差異明顯;Self-Refine在部分情境會縮小攻守差距並提高攻擊均衡機率。
速報
時間序列研究正從只比預測精準度的固定基準,轉向必須處理時間約束、情境推理、工具運用與結構化決策支援的真實任務。論文提出 AION,一個由代理人、技能、規則、記憶、評估與協定組成的時序實驗架構,並以時間紮根、時間知識導向推理與可靠性機制(事後分析與分層審查)為設計核心。
深度分析
處理型數值模擬蘊含豐富地球科學知識,但專業門檻高。研究提出「知識基礎設施」(KI),將操作性專家知識外部化為可被代理人調用的驗證化建模操作、分階段領域協議與故障診斷修復機制,並以工具箱自動化拆解多模型。實驗顯示KI大幅提高代理人成功率並促進跨領域模組整合。
深度分析
PolitNuggets提出一套以代理人(agentic)為核心、面向多語網路的政治傳記構建基準,涵蓋400位全球政治人物與逾一萬條政治事實。研究以經過優化的Supervisor–Searcher多代理系統作為統一評測平台,並提出FactNet——一套證據條件化的評分協議,衡量發現能力、細緻準確度與效率成本。
深度分析
面對以大型語言模型驅動的多代理系統在授權與資訊流追蹤上的脆弱性,PCAS提出以依賴圖建模因果關係,並用衍生自Datalog的宣告式規則執行授權檢查,透過執行前的參考監控器確保決策確定性。實驗顯示在客服任務上,大幅提升合規率並阻止違規行為,且具可審計性。
工件合約
醫學影像研究正從受控基準轉向臨床部署,面臨資料異質性與隱私限制。本文提出以工件合約為核心的代理人框架,於本地執行語義層、從模組化規則庫合成資料感知工作流程,並交由確定性工作流執行器保留可重現性。於多組臨床 CT/MRI 隊列驗證,展示適應性配置與工件驅動的語義查詢能力。