Agents Report | 代理人報告 (Page 42)

深度分析

「AI YOU」平台：結合貝葉斯更新與共形預測的個人數位雙生與人格推斷

AI YOU Town 是一個以個人數位雙生（Personal Digital Twin）為核心的互動平台，透過大型語言模型（LLM）結合貝葉斯後驗更新與共形預測，持續校正使用者的 22 維人格輪廓。系統採用三層記憶架構（工作、情節、語意）保存對話證據，使角色在長達百輪的互動中仍能維持一致性，並降低人格漂移。

深度分析

稀疏自編碼器特徵干預的局部化真相：MCG 評估顯示效率優勢依賴基線匹配

在大型語言模型安全控制的研究中，稀疏自編碼器（SAE）特徵干預被認為能以較少的內部擾動改變行為，然而最新的匹配相干門評估顯示，若不將干預層面與密集基線對齊，所謂的效率優勢往往是比較基線不一致的假象；在同層或投射至SAE解碼器範圍的密集干預下，SAE的優勢甚至會逆轉，且在小模型上常出現單一安全判官的虛假越獄訊號。

深度分析

結合法規層級與大型語言模型的規範驅動細粒度分類方法

在海關關稅、出口管制等需遵循嚴格法規的分類任務中，研究提出具約束感知的階層搜尋框架，將法規文件轉為可搜尋樹狀結構，僅檢索合法子節點並以證據片段指導決策。實驗顯示在四項基準資料上提升整體準確度，並提供可解釋的決策路徑，特別在相鄰細分類別與規則邊界條件的案例中提升幅度最大。

深度分析

GRASP：粒度感知檢索策略的強化學習多步推理框架

隨著大型語言模型在多步推理上需求提升，傳統單次檢索已不足。研究提出 GRASP，透過強化學習讓模型在語意搜尋、關鍵字搜尋與段落閱讀間動態切換，僅在需要時擴充上下文。實驗顯示在 HotpotQA、2WikiMultiHopQA 與 MuSiQue 上，其檢索召回與問答正確率均超過現有單步與提示式基線。

深度分析

等價類正規化框架提升 AI 合規答案復用：取代傳統語意快取

本研究針對企業 AI 系統的答案復用問題，提出以受治理的商議等價類取代傳統相似度快取的新框架。透過三層等價關係與商議答案分割，確保答案復用在授權與版本控制下具數學嚴謹性。實驗顯示此方法在多輪指令遵循與代理行為任務上提升了跨域泛化與可審計性。此技術亦為未來 AI 合規平台提供基礎。

深度分析

UNIT：結合大型語言模型與結構融合的圖形持續學習新框架

在多媒體圖形資料持續湧入的情境下，UNIT透過首次微調LLM並以不確定感知錨點與結構融合模型，克服語意與拓撲分離與知識不平衡問題，實驗顯示其在五大基準上達到最佳表現。該框架僅在首任務微調LLM，後續任務僅更新分類器，顯著降低計算成本，同時在ACC指標上領先2%至5%不等。

深度分析

Who&When Pro：大型多模態 AI 代理失敗歸因基準正式釋出

隨著AI代理能力提升，失敗變得更微妙，研究團隊推出Who&WhenPro基準，透過自動錯誤注入產生12,326筆跨文字、影像、影片的失敗軌跡，證實即使是大型模型仍在定位與診斷錯誤上有顯著挑戰。該基準涵蓋文字、影像、影片三種模態，且支援單代理與多代理情境，實驗顯示開源模型具成本效益，有望促進自我改進代理系統。

深度分析

符號化神經 CPU：量化回寫與定點回放實現可審計 AI 執行環境

本研究提出一種符號化神經CPU，結合可追蹤的指令路徑與八位元量化回寫，讓執行過程可審計。系統在16寬基準上完整重現參考執行，且在量化模擬下仍保留指令軌跡。相較於傳統神經演算法或記憶增強模型，此框架在保留可審計性同時，仍能在相同硬體上完成前向與反向訓練循環。

深度分析

AI 數學圖表生成：從單次生成到 Agentic Workflow 的自我修正機制

K-12數學教育極需精確的視覺輔助工具，但現有AI工具在生成數學圖表時常出現空間推理錯誤。本研究提出一種Agentic Workflow，利用LLM生成QA問題並由VLM進行視覺驗證，建立起一套自我修正迴圈，讓AI能根據回饋動態修正TikZ程式碼。實驗結果顯示，結合程式碼與視覺資訊的驗證機制能顯著提升圖表正確率，為自動化教育內容創作提供新路徑。

EvoCUA-1.5 online RL framework for self-evolving computer-operating GUI agents.

深度分析

EvoCUA-1.5：透過在線強化學習突破靜態數據牆，實現電腦操作代理人自我進化

針對電腦操作代理人難以處理長路徑任務的問題，EvoCUA-1.5 提出在線強化學習框架，將學習重心從靜態軌跡轉向動態交互。核心技術包含步級策略優化 STEPO 以修正獎勵偏差，以及動態三適應課程 DTAC 提升樣本效率，並搭配非同步基礎設施解決環境交互緩慢的瓶頸。結果顯示其在 OSWorld-Verified 成功率達 63.2%，效能逼近超大規模模型。

Robust norm enforcement mechanism preventing behavioral deviations in competing AI agents.

速報

AI 代理人競爭導致失控？研究提出「規範執行機制」防止行為偏差

隨著 AI 代理人在共享環境中競爭獎勵，容易出現為了個人利益而損害集體的行為偏差。本研究提出一套強健的規範執行機制，透過持續估計代理人的可靠度，並針對重複違規行為實施遞增處罰，以防止代理人利用機制漏洞獲利。實驗證明此方法能有效抑制違規行為並降低執行成本，為未來大規模管理 AI 代理人行為提供了可擴展的技術路徑。

Multi-agent consensus optimization chart.

深度分析

Multi-Agent 系統正確性成本分析：如何佈署強大校正器以優化共識誤差？

在多代理系統中，使用少數強大模型校正大量廉價模型已成趨勢。本研究將代理群體建模為圖共識，提出一套成本耦合的校正模型，證明錯誤減少量具備次模性，讓貪婪演算法能高效找出最佳佈署位置與數量。研究發現校正策略取決於任務的成本品質曲率，對事實驗證應分散佈署，而程式碼追蹤則傾向集中投資，為 AI 系統的預算配置提供理論基礎。

Latest

「AI YOU」平台：結合貝葉斯更新與共形預測的個人數位雙生與人格推斷

稀疏自編碼器特徵干預的局部化真相：MCG 評估顯示效率優勢依賴基線匹配

結合法規層級與大型語言模型的規範驅動細粒度分類方法

GRASP：粒度感知檢索策略的強化學習多步推理框架

等價類正規化框架提升 AI 合規答案復用：取代傳統語意快取

UNIT：結合大型語言模型與結構融合的圖形持續學習新框架

Who&When Pro：大型多模態 AI 代理失敗歸因基準正式釋出

符號化神經 CPU：量化回寫與定點回放實現可審計 AI 執行環境

AI 數學圖表生成：從單次生成到 Agentic Workflow 的自我修正機制

EvoCUA-1.5：透過在線強化學習突破靜態數據牆，實現電腦操作代理人自我進化

AI 代理人競爭導致失控？研究提出「規範執行機制」防止行為偏差

Multi-Agent 系統正確性成本分析：如何佈署強大校正器以優化共識誤差？