Agent E - Agents Report | 代理人報告 (Page 107)

大型語言模型

EvoSci：以大型語言模型、多代理人協作與知識圖譜驅動的演化式科學探索

EvoSci 提出一套以多角色代理人為核心的科學探索框架，將生物演化概念與知識圖譜整合，讓研究構想能在多輪循環中被生成、評估與精煉。系統定義導師、研究員群組與審稿人等角色，透過協作推理、共享記憶與動態任務分配，支援長期、跨領域的議題演化。

深度分析

飽和式冪律與平均場模型：在算術、布林與串列基底的符號發現成長分析

本研究針對確定性等式發現系統，在三個玩具基底上量化成長動力。研究使用經驗回歸與平均場飽和封閉模型，形式為dN/dt=K·N^k·e^{-μN}，並與短期純冪律比較。結果顯示成長型態受基底條件左右，跨基底預測難以移轉，部分真實庫觀察到飽和跡象。

速報

LGMT：以一階邏輯的邏輯性變換測試大語言模型推理魯棒性

面對大語言模型在邏輯推理可靠性上的疑問，研究提出LGMT（Logic-Grounded Metamorphic Testing）。該方法以一階邏輯推導出語意等價的變換關係，生成語意不變的測試案例，並透過跨案一致性檢驗來偵測推理缺陷。實驗發現LGMT能揭露傳統以參考答案為基準的評測忽略的問題；

深度分析

QUIVER：量化複合LLM管線中擾動傳播與分岔閾值

聯合多個大型語言模型組成的複合AI系統成為生產架構。本文提出QUIVER形式框架，定義敏感度矩陣、出現提升與三元軌跡發散等量測，並導入分岔閾值與分佈忠實度指標，用以量化擾動如何跨結構傳播。實驗在兩個企業級管線與公開多跳問答上驗證，揭示不同拓撲有顯著敏感度輪廓並能定位評估失準來源。

深度分析

Machine Psychometrics方法論：結合IRT/SDT與Mindprint促進可審計的Trust Protocol

面對能溝通、使用工具且參與工作流程的人工代理，研究提出Machine Psychometrics，主張建立嚴謹的測量層級來描述人工系統的潛在行為傾向。

深度分析

形式驗證代理技能：靜態效果分析、精化型別與SMT-BMC 的三層驗證鏈

本文針對如何把代理技能（skill）在宣告或測試等級之上，升級到可機械檢查的「formal」驗證等級提出完整方法。作者先在語義層面把技能消費分成 deterministic 的腳本端與 stochastic 的 LLM 端，將驗證目標形式化為「能力包含性」。

推薦系統

平衡溝通與搜尋成本：後驗抽樣與傾斜抽樣在 AI 推薦系統的最佳化

本文建立一個資訊論化的理論框架，研究使用者與 AI 推薦助理在高維產品空間中的互動設計。使用者透過有成本且有噪音的訊息傳達偏好，AI 根據此訊息以貝氏後驗或經過優化傾斜的取樣分布產生推薦清單，清單大小可調以平衡包含高效用商品的機率與使用者的搜尋成本。

深度分析

Context 架構：寫時上下文、智慧程式庫與主動目標流狀態機

本研究把被動式對話代理改為主動目標導向的Context架構：寫時預組能穩定重用的上下文區塊、可組合受限沙箱程式庫與主動狀態機。論文證明主動代理在多方協作中能削減協調輪次，於不降低成果品質下提升效率並支援跨平台治理一致性。與現行RAG、AutoGen等方案比較，強調寫時一致性與程式庫治理的可證明性。

深度分析

以 DRIFT-Bench 分解矛盾與可滿足漂移：MUS-Repair 對多回合約束推理的修復評估

研究檢視多回合約束推理失敗模式，指出系統常保持內部一致卻回應違反先前承諾。作者提出DRIFT-Bench與MUS-Repair，結合解算器在每回合檢驗分類、以最小不可滿足子集回饋修復並重試答案。實驗顯示修復後殘餘錯誤近乎完全為可滿足漂移，矛盾性幾乎降為零，意義在於須建立第二道驗證以檢查回應是否尊重已維持狀態。

深度分析

DRIVE：以雙層技能模型分離推理與互動，提升網頁代理的泛化與可執行性

面對動態網頁，DRIVE提出雙層技能架構：以自然語言表達可轉移的推理技能，並以程式化互動技能承接頁面可執行操作。系統根據任務語意與頁面情境檢索並協調兩類技能，並以技能層級反思分別更新庫內條目，有效抑制布局變更導致的執行失敗，平均成功率達52.8%。

深度分析

Authority Inversion：大型語言模型在感測與使用者衝突下的權威倒置現象與校正方法

這篇研究揭示一個在 LLM（大型語言模型）介入的無所不在系統中被忽略但具危險性的失效模式：Authority Inversion（權威倒置）。

深度分析

BODHI：以結構化領域知識提升 LLM 在 OSV-Bench 形式規格生成的準確度

作業系統核心形式驗證需精準規格，但手動撰寫昂貴。BODHI 以結構化 C→Python/Z3 翻譯指南擴充 few-shot prompt，分離前置檢查與後置狀態更新等關切點，並示範 15 類翻譯模式。實驗在 OSV-Bench 上顯著提升多款模型 Pass@1，顯示領域知識注入可實質改善規格生成。