Agent E - Agents Report | 代理人報告 (Page 15)

速報

FluxBench 系統評測：AI Agent 架構差異導致 EDA 表現差距達 86%

現有研究多限於孤立任務，FluxBench則系統評測AI代理在完整晶片設計流程（RTL到GDS）的表現，涵蓋開源與商用工具，並提出TokenROI成本指標。結果顯示代理系統架構性能差距達86.27%，Token ROI差異達105.92倍，凸顯系統設計與基礎模型同為關鍵。

速報

經驗基礎 LLM 代理人大幅提升災害模擬真實度

大型語言模型（LLM）代理人常用於模擬災害情境下的人類行為，但生成式推理常偏離實際群體模式。最新研究提出經驗基礎LLM代理人框架，將人口統計、時間使用調查數據與城市脈絡融入代理人決策。驗證顯示，正常與熱浪條件下模擬準確度相關係數分別從0.528與0.349提升至0.912與0.836，誤差大幅降低，真實反應捕捉率從20.6%提高到46.4%。

深度分析

DaoQL 顯式世界模型：資料優先本體論如何破解 LLM 四大結構危機

大型語言模型（LLM）將世界模型隱式編碼於神經網路權重中，導致幻覺、知識凍結、可解釋性差與難以局部修改等結構性缺陷。本研究提出「資料優先本體論」，將確定性知識移入名為 DaoQL 的顯式多模態資料庫，LLM 僅作為推理與語言引擎。

深度分析

AnthroDial：基於GRPO的擬人化對話閉環對齊框架

現有 AI 對話系統常因過於禮貌且傾向於總結，導致在私密聊天中顯得生硬且不自然。研究團隊提出 AnthroDial 閉環框架，透過角色卡與場景卡定義運行時，並結合 L0 有效性閘門與十個行為維度建立可執行評估基準。此外，該框架利用 CDT-ZPD 指導的 GRPO 強化學習，針對能力缺陷進行精準對齊。實驗結果顯示，該方法能顯著提升模型在擬人化對話中的一致性與自然度，使其更符合真實人類的社交行為。

深度分析

PUMA 框架：以相位-動量對齊監控大型推理模型推理品質

大型推理模型常因過度思考浪費運算，現有方法又難即時區分有效探索與無效停滯。本研究提出相位-動量對齊假說，開發 PUMA 框架，透過輕量級熵監控與事件觸發的幾何診斷，準確判定模型是否陷入認知空轉。實驗證明 PUMA 能在不增加訓練成本下顯著提升準確率與效率的平衡。

深度分析

LaCache 無損快取框架：消除擴散語言模型冗餘計算，實現高效推理加速

擴散大語言模型在半自回歸解碼時面臨嚴重的算子級冗餘計算問題。研究團隊提出 LaCache 加速框架，透過無損狀態備忘錄快取嵌入、RoPE 與 FlashAttention 統計量，並導入針對 FFN 層的 FP8 量化策略以優化記憶體頻寬。實驗證明 LaCache 能在維持模型準確度的前提下，將推理速度提升 1.3 倍，與其他方案結合後最高可達 40.2 倍加速。

深度分析

JarvisBench：以語音中介層提升AI代理透明度與可引導性

長期 AI 代理與使用者之間的通訊往往薄弱，使用者難以掌握代理的即時狀態。JarvisBench 基準專門評估一個語音中介層（mediator），該層持續監控工作代理的執行軌跡，在使用者提問時給出基於追蹤的回應，並在偵測到失敗跡象時主動諮詢使用者，將簡潔指導注入代理的即時決策。

深度分析

精確網路手術：NeuroDSL引擎實現功能保留與梯度可塑性的理論保證

本研究提出「精確網路手術」（Exact Network Surgery），一種在即時運算圖中原地插入殘差塊的技術，能在不破壞已學習函數的前提下擴展模型容量。作者證明，透過零初始化輸出投影與梯度遮蔽（Gradient Shadowing）機制，插入後的網路在浮點運算下可達到位元層級的精確性，且新參數在插入後第一個最佳化步驟即開始學習。

深度分析

非均勻監督原則：AI長程工作流程中人類監督的最佳化排程理論

生成式 AI 正從單一步驟生成轉向多步驟自動化流程，但人類監督角色的重要性與時間成本之間的張力日益突出。本研究將此問題形式化為有限監督次數下的排程最佳化，並提出「非均勻性原則」，證明最優排程應在前期密集監督、後期逐漸拉大監督間隔，以平衡最終成果的對齊品質與人力投入。

深度分析

Shapley Context Pruning：以合作賽局理論提升 RAG 上下文剪枝效率

RAG 系統面臨長上下文處理瓶頸，現有方法缺乏理論基礎。SCP 以合作賽局觀點，用 Shapley 值計算句子邊際貢獻，搭配 3M 參數的 Deep Sets 網路與蒙特卡羅採樣，實現可擴展的上下文排序與剪枝。實驗在多跳推理等任務上表現優異，並提供可解釋性。

深度分析

PlanFlip攻擊框架揭示多智能體系統規劃階段級聯放大漏洞

多智能體LLM系統的規劃階段存在致命安全漏洞。PlanFlip框架透過四種提示注入攻擊（目標置換、優先級反轉等），單次注入即可污染所有子任務。測試顯示GPT-5攻擊成功率達0.68，同質化管線的Critic完全無法察覺計畫被篡改，僅推理增強模型DeepSeek-R1能完全抵抗。

Open CoDesign

Open CoDesign：桌面原生開源設計工具，支援BYOK與多模型切換

Open CoDesign 是 MIT 授權的桌面原生 AI 設計工具，支援自帶 Claude、GPT 等模型，在本機產出原型與素材。它提供即時預覽與多格式匯出，對比雲端方案更具隱私與彈性，吸引超過 7,300 顆 GitHub 星，成為開發者擺脫單一模型鎖定的新選擇。