速報 - Agents Report | 代理人報告 (Page 19)

速報

企業多代理系統動態協調策略選擇研究

本研究探討在企業多代理系統中，是否應根據問題類別動態選擇協調策略（共識、辯論、合成或單一代理）而非全域固定。

速報

Pause‑and‑Think‑T：小型視覺語言模型的情境推理突破

近期的視覺語言模型在影片的實體推理、時間一致性與情境規劃上表現不佳。研究團隊推出以推理為核心的訓練資料集 pause‑and‑think‑T，要求模型在產生答案前先暫停、檢視視覺證據並形成簡潔可執行的回應。

速報

StressDream：導向高衝擊且合理影像的擴散式影片世界模型

研究團隊提出 StressDream，透過優化擴散式影片世界模型的初始噪聲，使想像的未來影像朝向高衝擊但仍合理的結果發展。此方法結合視覺語言模型提供的語意梯度與合理性目標，避免噪聲偏離分佈。實驗以自駕與機械手臂的最先進影片模型驗證，證明可在推論時以文字指定失敗情境，協助更穩健的策略評估與改進，找出可能導致不良結果的動作。

速報

FoLoRA：保留基礎模型能力的忘記感知 LoRA 優化框架

微調雖能讓基礎模型適應特定任務，但常會削弱預訓練時獲得的通用能力。為了同時提升目標任務表現與保留非目標能力，研究團隊提出 Foundation Preserving LoRA（FoLoRA），一種以遺忘懲罰與任務效用為指標的優化方法。

速報

MemoryAgentBench：以序號聚合解決大型語言模型記憶衝突

研究指出，LLM 記憶系統在處理隨時間演變的事實時，常因衝突解決不佳而表現不佳。MemoryAgentBench（MAB）以 FactConsolidation 任務測試衝突解決，發現現有系統在單跳與多跳情境下正確率均低於 55%。

速報

MOSAIC 框架：結構化代理式自動資料科學新突破

研究提出 MOSAIC（Modular Orchestration for Structured Agentic Intelligence and Composition）作為一套結構化的代理式框架，針對自動資料科學的模型選擇與工作流程建構提供記憶化、語意化的支援。

速報

Posterior Hybrid Bayesian Belief（PhyB）提升離線強化學習效能

離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數，提出 Posterior Hybrid Bayesian Belief（PhyB），將期望重新表達為動態模型子集合的凸組合，理論證明近似誤差有界。基於 PhyB，開發出具備單調改進保證的迭代正則化策略優化演算法，直至收斂。

速報

大型語言模型進入系統技術時代：ICAM 六層架構全解析

大型語言模型正從模型技術轉向系統技術，開發者利用 Codex、Claude Code、AutoGPT 等代理人編寫程式與執行多步驟任務。研究將電腦架構概念映射至模型原生堆疊，提出六層 ICAM 框架，並以機率執行層與決策控制層解釋 LLM 的雙重角色。驗證三大設計法則，指出未來研究方向。

速報

量子通用轉換器（UQT）突破傳統神經網路的數學推理瓶頸

研究指出傳統神經網路在精確數學對稱性上需大量參數且易不穩。團隊提出通用量子轉換器（UQT），利用多量子位的幾何相位與 SU(2) 波干涉，在 5 顆量子位上精確學習模 11 算術與 S4 置換群。實驗顯示 UQT 收斂後具決定性泛化，並在 IBM NISQ 硬體上驗證，可克服自注意力的二次複雜度瓶頸。

速報

Consilium Protocol：以認知人格驅動多模型 AI 辯論的新架構

研究團隊提出 Consilium Protocol，一套源自拜占庭容錯的架構，讓多模型 AI 在討論時將模型間的分歧視為認知訊號而非錯誤。透過為語言模型分配工程化的認知人格，並引入量化金融的樣本內/樣本外驗證機制，能區分訓練資料的共識與實證結論。

速報

Mnemos-MCP 私有知識伺服器在 GitHub Trending 飆升

ELSAKKK 開源的 Mnemos-MCP 近期在 GitHub Trending 上快速攀升，吸引開發者注意。這是一套以 Python 撰寫的私有知識伺服器，提供多集合隔離、決定性匯入與本地向量搜尋等功能，讓文件可在本機安全且高效地被索引與查詢。

速報

DTBench：首個具能力感知的文件轉表格合成基準

研究團隊提出 DTBench，一套以逆向 Table2Doc 流程自動生成文件的合成基準，針對文件轉表格（Doc2Table）任務建立兩層能力分類，涵蓋 5 大類 13 小類。實驗顯示主流大型語言模型在推理、忠實度與衝突解決上仍有明顯差距，凸顯此領域的挑戰與研究空間。