Agent E - Agents Report | 代理人報告 (Page 52)

深度分析

企業部署 AI 代理人測試挑戰與 AWS、Couchbase、Microsoft 上下文治理方案

企業AI代理人部署迅速，卻面臨測試驗證不足的評估缺口。調查顯示半數企業在內部測試通過後仍出錯，且僅5%完全信任自動評分。此情形促使未來資安與治理工具成為投資重點企業將在未來一年投入資源改造評估平台，並優先採用重複性測試與回歸驗證，以縮小自主化與可信度之落差。

深度分析

StateLinFormer：線性注意力與持續記憶訓練提升長程導航與 In‑Context Learning

隨著機器人導航需求提升，傳統SLAM與固定窗口Transformer受限於記憶長度。研究提出StateLinFormer，以線性注意力結合跨批次持續記憶訓練，使模型在無限序列近似下保有長期資訊。實驗顯示在Maze與ProcTHOR環境中，其成功率與步數均顯著優於同規模基線。

深度分析

MasFACT：結構記憶與 FGW 對齊的持續多代理拓撲學習方法

MasFACT 提出一套幾何感知的後驗證轉移機制，專為大型語言模型驅動的多代理系統（MAS）在持續任務流中防止拓撲遺忘而設計。透過融合 Gromov‑Wasserstein 最適傳輸將歷史高效合作結構作為可轉移的拓撲先驗，並以 PAC‑Bayes 引導的保守後驗調整平衡新任務的可塑性與結構的穩定性。

速報

LoKA 框架：讓 FP8 成為大型推薦模型的實用低精度解決方案

近期 GPU 代工以 FP8 低精度算術提升 FLOPs，但大型推薦模型（LRM）因數值敏感、矩陣乘法與正規化比例高，直接使用 FP8 常導致品質下降與訓練時間延長。

深度分析

即時監測 VLM 流程圖轉碼品質：OCR 與視覺蘊涵雙指標評估方法

隨著視覺語言模型被廣泛用於流程圖圖像轉程式碼，缺少參考碼使品質監控困難。研究提出以OCR產生文字作為參考的Recall_OCR，並以視覺蕴涵驗證生成內容的Precision_VE，合成F1_OCR-VE作為品質指標。實驗在FlowVQA上驗證，與真實指標相關係數分別達0.97、0.91、0.94。

深度分析

自監督視覺Transformer與Gram矩陣蒸餾提升自然場景類人物體分組行為

研究以自然場景點對判斷測試人類物體分組，採用自監督Transformer（DINO系列）與監督模型比較，發現自監督模型在預測反應時間與同物體優勢上更貼近人類行為，顯示Gram矩陣結構提升感知對齊。此外，透過將監督模型的Gram矩陣蒸餾至自監督模型，可進一步提升其物體中心性與行為對齊度。

深度分析

LLM 驅動的 Self-EvolveRec：透過使用者模擬器與診斷工具提升推薦效能

隨著線上資料激增，傳統推薦系統設計受限於固定搜尋空間。研究提出 Self-EvolveRec，結合使用者模擬器與模型診斷工具，提供方向性回饋。實驗顯示其在效能與使用者滿意度上均顯著優於現有 NAS 與 LLM 演化基線。此技術有望重塑推薦系統自動化流程。

速報

近正交特徵字典提升語言模型可干預性

機械可解釋性研究認為語言模型的概念以線性特徵呈現在激活空間中，然而特徵交織會導致干擾，使局部干預產生意外影響。研究者受「獨立因果機制」原則啟發，提出將內部特徵約束為近正交，以促進模組化表示並支援因果干預。透過分析特徵字典的自一致性，建立上界以量化干擾傳播，並將其轉化為正交正則化項。

速報

XFactors：弱監督式 VAE 實現高效可分離表徵學習

可分離表徵學習常因缺乏監督而難以捕捉真實資料語意。XFactors 以弱監督 VAE 結合資訊瓶頸，將表示拆解為殘差與因子子空間，利用 InfoNCE 使同因子緊密、不同因子分離，並以 KL 正則化維持結構。實驗顯示在多資料集上達到最佳可分離分數，且在 CelebA 上成功實現因子交換，具備良好可擴展性。

深度分析

神經鏈與離散動力系統：與 PINN 及有限差分求解 PDE 的深度比較

本篇報導深入剖析不含自注意力的 transformer 變體——神經鏈（Neural Chains），並將其與離散動力系統的數值解法以及物理感知神經網路（PINN）作系統性比較。

深度分析

Token-Domain Multiple Access (ToDMA)：結合多模態大模型的 6G 語義通信新框架

面對 6G 海量設備連接的挑戰，研究人員提出 ToDMA 語義多重接取方案。該技術將數據 Token 化後利用共享碼本傳輸，接收端則透過壓縮感知檢測活動 Token，並結合多模態大模型利用上下文預測來補全碰撞遺失的 Token。實驗結果顯示，ToDMA 的傳輸延遲較正交方案降低四倍，顯著提升了多模態數據在未來無線網路中的傳輸效率與重建品質。

深度分析

「ContextSniper」：透過混合檢索與意圖感知門降低程式庫修復 Token 消耗

隨著大型語言模型被用於程式庫層級的錯誤修復，ContextSniper 透過意圖感知的上下文門將冗長的讀檔與指令輸出濾除，只保留關鍵程式碼與執行證據。實驗顯示，於 SWE‑bench Lite 測試中，OpenClaw 與 Claude Code 的 token 使用分別下降 51.5% 與 38.9%，成本亦同步降低。