深度分析 - Agents Report | 代理人報告 (Page 33)

深度分析

UNIT：結合大型語言模型與結構融合的圖形持續學習新框架

在多媒體圖形資料持續湧入的情境下，UNIT透過首次微調LLM並以不確定感知錨點與結構融合模型，克服語意與拓撲分離與知識不平衡問題，實驗顯示其在五大基準上達到最佳表現。該框架僅在首任務微調LLM，後續任務僅更新分類器，顯著降低計算成本，同時在ACC指標上領先2%至5%不等。

深度分析

Who&When Pro：大型多模態 AI 代理失敗歸因基準正式釋出

隨著AI代理能力提升，失敗變得更微妙，研究團隊推出Who&WhenPro基準，透過自動錯誤注入產生12,326筆跨文字、影像、影片的失敗軌跡，證實即使是大型模型仍在定位與診斷錯誤上有顯著挑戰。該基準涵蓋文字、影像、影片三種模態，且支援單代理與多代理情境，實驗顯示開源模型具成本效益，有望促進自我改進代理系統。

深度分析

符號化神經 CPU：量化回寫與定點回放實現可審計 AI 執行環境

本研究提出一種符號化神經CPU，結合可追蹤的指令路徑與八位元量化回寫，讓執行過程可審計。系統在16寬基準上完整重現參考執行，且在量化模擬下仍保留指令軌跡。相較於傳統神經演算法或記憶增強模型，此框架在保留可審計性同時，仍能在相同硬體上完成前向與反向訓練循環。

深度分析

AI 數學圖表生成：從單次生成到 Agentic Workflow 的自我修正機制

K-12數學教育極需精確的視覺輔助工具，但現有AI工具在生成數學圖表時常出現空間推理錯誤。本研究提出一種Agentic Workflow，利用LLM生成QA問題並由VLM進行視覺驗證，建立起一套自我修正迴圈，讓AI能根據回饋動態修正TikZ程式碼。實驗結果顯示，結合程式碼與視覺資訊的驗證機制能顯著提升圖表正確率，為自動化教育內容創作提供新路徑。

EvoCUA-1.5 online RL framework for self-evolving computer-operating GUI agents.

深度分析

EvoCUA-1.5：透過在線強化學習突破靜態數據牆，實現電腦操作代理人自我進化

針對電腦操作代理人難以處理長路徑任務的問題，EvoCUA-1.5 提出在線強化學習框架，將學習重心從靜態軌跡轉向動態交互。核心技術包含步級策略優化 STEPO 以修正獎勵偏差，以及動態三適應課程 DTAC 提升樣本效率，並搭配非同步基礎設施解決環境交互緩慢的瓶頸。結果顯示其在 OSWorld-Verified 成功率達 63.2%，效能逼近超大規模模型。

Multi-agent consensus optimization chart.

深度分析

Multi-Agent 系統正確性成本分析：如何佈署強大校正器以優化共識誤差？

在多代理系統中，使用少數強大模型校正大量廉價模型已成趨勢。本研究將代理群體建模為圖共識，提出一套成本耦合的校正模型，證明錯誤減少量具備次模性，讓貪婪演算法能高效找出最佳佈署位置與數量。研究發現校正策略取決於任務的成本品質曲率，對事實驗證應分散佈署，而程式碼追蹤則傾向集中投資，為 AI 系統的預算配置提供理論基礎。

Epistemic State Replication (ESR) diagram.

深度分析

從位元一致到語義共識：認知狀態複製 (ESR) 讓 AI 代理系統擺脫決定論枷鎖

在分佈式系統中，傳統位元級同步無法應對生成式AI代理的隨機性。研究提出認知狀態複製（ESR）技術，將狀態拆分為不可變證據日誌與演進中的認知譜系，並定義語義線性化以確保操作意圖的一致性。透過認知增量傳播與可驗證語義回滾，該方案能有效防止上下文失憶並降低認知錯誤，為AI代理協作提供新框架。

Least Autonomy theory diagram for AI agents.

深度分析

AI Agent 權限失控的解藥：從「最小權限」演進至「最小化自治權」理論

面對 AI Agent 系統中權限可組合化且能互相影響的特性，傳統的最小權限原則已不足以確保安全。本研究提出「最小化自治權」理論，透過超度量樹量化資源間的結構距離，並結合影響力圖分析 Agent 間的潛在影響力路徑。此框架能有效偵測權限組合與決策操縱等共謀風險，為企業在部署 AI Agent 時提供更深層的權限管控與安全審計能力。

GPT-4.1-mini vs GPT-5-mini architecture comparison

深度分析

AI 策略推理的「支架」效應：GPT-5-mini 與 GPT-4.1-mini 架構對比分析

本研究探討結構化推理干預對 AI 經濟策略推理的影響。研究團隊利用 Hotelling 線性城市模型，對比 GPT-4.1-mini 與 GPT-5-mini 在五種條件下的表現。結果發現推理支架的效果取決於模型架構：承諾協議提升標準模型但損害推理模型，而原則分離則能優化推理模型並縮小執行差距。這顯示針對不同 AI 架構設計差異化推理支架，才能有效提升複雜策略推理能力。

Diagram of GRPO-tuned SLM for industrial control

深度分析

邊緣運算新突破：利用 GRPO 微調 SLM 實現工業控制閉環自修正

工業自動化需將自然語言需求快速轉為控制策略，但雲端大模型延遲高且資安風險大。本研究採用 Qwen2.5-1.5B 小型模型，透過 GRPO 強化邏輯推理並結合符號驗證層與重新提示代理人，建構多代理自修正閉環。實驗顯示其平均動作對齊準確率達 91.5%，且在壓力測試中維持 95% 範圍內率，證明 SLM 方案能有效降低邊緣控制延遲並提升系統可靠性。

CODI and COCONUT latent CoT trajectories

深度分析

解密 Latent CoT 黑盒子：利用動力系統分析揭露 CODI 與 COCONUT 的推理邏輯

面對潛在鏈式思考模型缺乏可解釋性的挑戰，研究團隊將隱藏空間的推理過程建模為動力系統，透過定量指標與定性投影分析推理軌跡的演化。研究發現 CODI 採收斂至穩定吸引子的分類策略，而 COCONUT 則表現出不穩定擴張的計算策略，且 SIM-CoT 能有效提升兩者的穩定性。此框架為優化潛在推理效能提供了新的可解釋性分析路徑。

Infographic on AI game generation using execution verification.

深度分析

驗證器即課程：透過執行門檻自蒸餾提升 AI 遊戲生成能力

針對 AI 程式碼生成中評判員容易被欺騙的缺陷，本研究提出一種確定性的執行門檻過濾機制。透過將生成的遊戲專案在無頭引擎中實際執行並驗證是否能正常啟動，將此訊號用於迭代自蒸餾訓練。實驗結果顯示，Qwen3-14B 在未見過的遊戲類別生成成功率顯著提升，證明精準的驗證器能定義有效的學習路徑並突破性能上限。