Agent E - Agents Report | 代理人報告 (Page 115)

深度分析

本研究實證稽核Anchored Decoding的k-NAF預算會計，採固定分層工作負載與自適應提示搜尋。以經驗貝葉斯上界做代理指標，量測序列級KL消耗並檢驗表面重疊。固定負載下平均支出顯著低於序列預算，自適應搜尋提高代理比但未見明顯預算耗盡。

深度分析

研究提出STAB框架，僅憑自然語言題目規格即生成揭露演算法瓶頸的測試資料，先以規則與CP‑SAT求得最大合法尺寸，再從13種對抗情境匹配構造原則，由大型語言模型產生Python測資生成器，於CodeContests提升測資暴露率至70%以上，顯示規格導向測試的效能與可擴展性。

速報

學術論文常以圖示說明複雜方法。提出DiagramRAG透過檢索增強把草圖與相容參考結合以補全圖示。技術用知識圖譜與嵌入對齊草圖與圖示。實驗在DiagramBank與FigureBench分別達到F1分數0.848與0.802，並改善生成品質與推論延遲。

深度分析

AIBuildAI-2提出一種以分層且可持續更新的外部知識系統來強化自動化AI模型構建代理。系統以約30個高階類別（L1）配對約1,000份實務文件（L2），採動態載入相關知識以節省上下文空間，並在每次執行後將結構化經驗回寫知識庫以自我成長。

深度分析

TCP‑MCP 提出將代理提示（prompts）與通訊拓撲視為聯合基因體，同時演化以設計多代理系統。研究以初始化景觀探針校準早期搜尋，並以帕累托前緣診斷在任務效能、Token 成本與結構複雜度三目標間自適應探索。

生成式回應模型 (GRM)

在線廣告自動出價需在預算與效率間取捨。本文提出生成式回應模型（GRM），以歷史條件預測整段時域的費用、價值與流量回應曲線，並用輕量解析控制器透過一維根求解滿足預算與CPA等約束。實驗指出GRM在AuctionNet上改善了約7.8%的總分並在分布轉移下更為穩定。

深度分析

研究指出非結構化文字已成生產環境增長最快的資料類型，提出在瀏覽器與代理人沙箱直接查詢 Parquet/Iceberg 的 JavaScript 引擎與庫，透過逐欄延遲解碼與非同步 UDF，將昂貴模型推理延後執行，顯著降低冷啟動與推理成本，並改善查詢互動延遲與模型計費。

深度分析

隨著大型語言模型在具身代理中的應用普遍，記憶仍多為外部檢索。研究提出PEAM框架，將成功與修正的操作軌跡內化為參數化適配器，並以失敗為訓練訊號。此設計透過每類別獨立的LoRA適配器避免跨技能遺忘，且以自觸發機制在失敗統計達標時自動內化，免除手動門檻，提升了代理的實時反應速度。

retrieval-augmented-generation

隨著人工智慧生成文本在研究流程中普及，論文內引用與聲明不一致的風險攀升。DeepSciVerify提出一套兩階段的驗證流程：先在摘要層級以大型語言模型進行快速判斷，對不確定的案例才升級檢索全文並以段落證據比對。

速報

自主與代理型人工智慧在實際場域放大後，幻覺與不當持續行為成為挑戰。論文提出 SMARt 管理型自治框架，定義偵測認知漂移、暫停推理、嘗試恢復與放棄控制等行為，並以帶時限的受護 Petri 網給出形式化守則，主張把失敗管理納入自治生命週期以提升可治理性。研究也討論場域觸發集合的適配與安全擴展。

深度分析

研究指出，AI與人互動時要既懂人類規範又能在規劃中遵守。本文提出一個處理動態規範衝突的可推翻演算，從自然語言的規範證詞推論個別的規範信念，並將推論結果作為規劃的守門條件。理論證明一致性並以SocialBot對話實驗驗證其在隱私情境的應用價值。

速報

ArXiv發表LagunaM.1與LagunaXS.2，兩款為長程代理式編碼設計的MoE基礎模型。作者說明在稱為ModelFactory的系統中從頭訓練與量化；M.1與XS.2在軟體工程與終端機基準上與同級開源模型相當，XS.2權重已以Apache2.0釋出。