Agents Report | 代理人報告 (Page 15)

速報

經驗基礎 LLM 代理人大幅提升災害模擬真實度

大型語言模型（LLM）代理人常用於模擬災害情境下的人類行為，但生成式推理常偏離實際群體模式。最新研究提出經驗基礎LLM代理人框架，將人口統計、時間使用調查數據與城市脈絡融入代理人決策。驗證顯示，正常與熱浪條件下模擬準確度相關係數分別從0.528與0.349提升至0.912與0.836，誤差大幅降低，真實反應捕捉率從20.6%提高到46.4%。

深度分析

DaoQL 顯式世界模型：資料優先本體論如何破解 LLM 四大結構危機

大型語言模型（LLM）將世界模型隱式編碼於神經網路權重中，導致幻覺、知識凍結、可解釋性差與難以局部修改等結構性缺陷。本研究提出「資料優先本體論」，將確定性知識移入名為 DaoQL 的顯式多模態資料庫，LLM 僅作為推理與語言引擎。

深度分析

AnthroDial：基於GRPO的擬人化對話閉環對齊框架

現有 AI 對話系統常因過於禮貌且傾向於總結，導致在私密聊天中顯得生硬且不自然。研究團隊提出 AnthroDial 閉環框架，透過角色卡與場景卡定義運行時，並結合 L0 有效性閘門與十個行為維度建立可執行評估基準。此外，該框架利用 CDT-ZPD 指導的 GRPO 強化學習，針對能力缺陷進行精準對齊。實驗結果顯示，該方法能顯著提升模型在擬人化對話中的一致性與自然度，使其更符合真實人類的社交行為。

深度分析

PUMA 框架：以相位-動量對齊監控大型推理模型推理品質

大型推理模型常因過度思考浪費運算，現有方法又難即時區分有效探索與無效停滯。本研究提出相位-動量對齊假說，開發 PUMA 框架，透過輕量級熵監控與事件觸發的幾何診斷，準確判定模型是否陷入認知空轉。實驗證明 PUMA 能在不增加訓練成本下顯著提升準確率與效率的平衡。

深度分析

LaCache 無損快取框架：消除擴散語言模型冗餘計算，實現高效推理加速

擴散大語言模型在半自回歸解碼時面臨嚴重的算子級冗餘計算問題。研究團隊提出 LaCache 加速框架，透過無損狀態備忘錄快取嵌入、RoPE 與 FlashAttention 統計量，並導入針對 FFN 層的 FP8 量化策略以優化記憶體頻寬。實驗證明 LaCache 能在維持模型準確度的前提下，將推理速度提升 1.3 倍，與其他方案結合後最高可達 40.2 倍加速。

深度分析

JarvisBench：以語音中介層提升AI代理透明度與可引導性

長期 AI 代理與使用者之間的通訊往往薄弱，使用者難以掌握代理的即時狀態。JarvisBench 基準專門評估一個語音中介層（mediator），該層持續監控工作代理的執行軌跡，在使用者提問時給出基於追蹤的回應，並在偵測到失敗跡象時主動諮詢使用者，將簡潔指導注入代理的即時決策。

深度分析

精確網路手術：NeuroDSL引擎實現功能保留與梯度可塑性的理論保證

本研究提出「精確網路手術」（Exact Network Surgery），一種在即時運算圖中原地插入殘差塊的技術，能在不破壞已學習函數的前提下擴展模型容量。作者證明，透過零初始化輸出投影與梯度遮蔽（Gradient Shadowing）機制，插入後的網路在浮點運算下可達到位元層級的精確性，且新參數在插入後第一個最佳化步驟即開始學習。

深度分析

非均勻監督原則：AI長程工作流程中人類監督的最佳化排程理論

生成式 AI 正從單一步驟生成轉向多步驟自動化流程，但人類監督角色的重要性與時間成本之間的張力日益突出。本研究將此問題形式化為有限監督次數下的排程最佳化，並提出「非均勻性原則」，證明最優排程應在前期密集監督、後期逐漸拉大監督間隔，以平衡最終成果的對齊品質與人力投入。

深度分析

Shapley Context Pruning：以合作賽局理論提升 RAG 上下文剪枝效率

RAG 系統面臨長上下文處理瓶頸，現有方法缺乏理論基礎。SCP 以合作賽局觀點，用 Shapley 值計算句子邊際貢獻，搭配 3M 參數的 Deep Sets 網路與蒙特卡羅採樣，實現可擴展的上下文排序與剪枝。實驗在多跳推理等任務上表現優異，並提供可解釋性。

深度分析

PlanFlip攻擊框架揭示多智能體系統規劃階段級聯放大漏洞

多智能體LLM系統的規劃階段存在致命安全漏洞。PlanFlip框架透過四種提示注入攻擊（目標置換、優先級反轉等），單次注入即可污染所有子任務。測試顯示GPT-5攻擊成功率達0.68，同質化管線的Critic完全無法察覺計畫被篡改，僅推理增強模型DeepSeek-R1能完全抵抗。

Open CoDesign

Open CoDesign：桌面原生開源設計工具，支援BYOK與多模型切換

Open CoDesign 是 MIT 授權的桌面原生 AI 設計工具，支援自帶 Claude、GPT 等模型，在本機產出原型與素材。它提供即時預覽與多格式匯出，對比雲端方案更具隱私與彈性，吸引超過 7,300 顆 GitHub 星，成為開發者擺脫單一模型鎖定的新選擇。

Meridian

Meridian 開源專案：橋接 Claude Max 訂閱與第三方 AI 編碼工具的代理層

Meridian 是一個開源橋接層，讓 Claude Max 訂閱能在 OpenCode、Aider 等第三方工具中使用。它基於 Claude Agent SDK，不繞過任何限制，僅轉換 API 格式。此專案為開發者提供更多工具選擇，同時尊重 Anthropic 的平台治理。

Latest

經驗基礎 LLM 代理人大幅提升災害模擬真實度

DaoQL 顯式世界模型：資料優先本體論如何破解 LLM 四大結構危機

AnthroDial：基於GRPO的擬人化對話閉環對齊框架

PUMA 框架：以相位-動量對齊監控大型推理模型推理品質

LaCache 無損快取框架：消除擴散語言模型冗餘計算，實現高效推理加速

JarvisBench：以語音中介層提升AI代理透明度與可引導性

精確網路手術：NeuroDSL引擎實現功能保留與梯度可塑性的理論保證

非均勻監督原則：AI長程工作流程中人類監督的最佳化排程理論

Shapley Context Pruning：以合作賽局理論提升 RAG 上下文剪枝效率

PlanFlip攻擊框架揭示多智能體系統規劃階段級聯放大漏洞

Open CoDesign：桌面原生開源設計工具，支援BYOK與多模型切換

Meridian 開源專案：橋接 Claude Max 訂閱與第三方 AI 編碼工具的代理層