深度分析 - Agents Report | 代理人報告 (Page 24)

深度分析

LGF 透過神經符號結合與離散流模型提升 ODE 符號回歸表現

科學研究常需從數據推導出具有解釋力的微分方程，但傳統黑盒模型缺乏透明度。本研究提出 Latent Grammar Flow (LGF) 框架，利用語法量化自動編碼器將方程結構嵌入離散潛在空間，並結合離散流模型與領域知識導向採樣。結果顯示 LGF 在處理顯式與隱式 ODE 時，能比傳統符號回歸方法更高效地發現精確且符合物理特性的數學表達式。

深度分析

dMX 可微分混合精度框架提升 MXFP 低精度部署效能與準確率

隨著大型語言模型部署需求激增，研究團隊提出 dMX 框架，透過可微分的位元寬度參數化在 MXFP 系列間平滑切換，並以溫度退火將學得的連續偏移離散化。實驗顯示在 Llama、Qwen3 與 SmolLM2 上，同時降低平均位元至 5.2 時仍保持或提升準確度，為低精度浮點部署提供更佳效能。

深度分析

「Xray‑Visual」：百億社群媒體資料驅動的高效能多模態 Vision Transformer

研究以超過15億張影像文字配對與10億段影片標籤，建構統一視覺模型Xray‑Visual。模型採三階段訓練：自監督MAE、半監督標籤分類與CLIP對比學習，並以EViT令token效率提升。實驗顯示在ImageNet、Kinetics及MS‑COCO上均創新紀錄，同時在域轉移與對抗擾動下保持韌性。

深度分析

FlipSet 基準揭露視覺語言模型的 L2 視角推理自我中心偏誤與組合缺陷

在視覺語言模型的社會認知測試中，研究團隊以 FlipSet 這套 L2 視覺視角推理基準，對 103 種公開模型進行零樣本評估。結果顯示，超過七成的回答是自我中心的相機視角，整體正確率僅 9%，遠低於 25% 的機會水平，說明模型在將他人視角與空間旋轉結合時存在根本缺失。此問題若不解決，將限制多模態 AI 在真實互動情境中的應用。

深度分析

DECO：解耦式多模態擴散變換器結合觸覺插件提升雙手靈巧操作效能

隨著雙手靈巧操作需求提升，研究推出 DECO 解耦多模態擴散變換器，分別注入視覺、proprioception與觸覺資訊，並搭配輕量觸覺插件與50小時、500萬格的DECO-50資料集，實驗顯示平均成功率達72.25%，觸覺適配器另提升10.25%。

深度分析

MSEA 與 ARC 提升多模態大型語言模型解釋性之方法與實驗

隨著多模態大型語言模型在視覺問答與影像描述等任務上表現突出，研究者發現現有解釋方法忽略模態內部相互作用。為此提出多尺度說明聚合（MSEA）與激活排名相關（ARC）兩項技術，分別整合多解析度影像與抑制前文干擾。實驗顯示在 COCO Caption 等基準上解釋精度提升 3.7% 至 14.5%，提升模型透明度與風險可控性。

SheetMind multi-agent spreadsheet automation system infographic.

深度分析

以 BNF 文法結合多代理 LLM 的試算表自動化系統 SheetMind

大型語言模型提升試算表可用性，但公式與巨集仍是門檻。SheetMind 以管理、動作、反思三代理人，將指令分解、以 BNF 文法產生結構化指令並即時驗證。同時支援條件式清理與跨表格資料搬移，提升工作流彈性。實驗顯示單步成功率約 80%，多步達 70%，且直接以 Workspace 擴充功能嵌入 Google Sheets，免除腳本部署，提升隱私與即時互動。

TOFFEE MCTS data agent trajectory synthesis system infographic.

深度分析

TOFFEE：結合蒙特卡羅樹搜尋與自適應成本模型的高品質資料代理人軌跡合成系統

隨著大型語言模型驅動的資料代理人在企業決策中的應用日增，TOFFEE利用蒙特卡羅樹搜尋與自適應模型選擇，自動合成高品質資料代理人軌跡，並在相同預算下提升合成品質與下游微調效能。系統支援前綴重用與預算感知成本模型，降低重複計算，在KramaBench與DSBench上超越OpenAI o3等模型。

深度分析

AI 滲透測試代理人評估協議：以漏洞驗證為核心的多目標實驗

隨著大型語言模型讓AI代理人能執行攻擊性安全任務，研究提出以驗證漏洞發現為核心的新評估協議，透過語意匹配與二分圖解決模糊對應，並在多目標多漏洞環境中證實可比傳統CTF基準更具實務參考價值，此協議同時納入效率指標，考量執行時間與成本，提供持續式真實漏洞庫以支援重複與累積評估。

深度分析

MobCache：基於潛在空間與行動感知的高效大型語言模型移動模擬快取框架

隨著城市規劃與流行病學需求大量人類移動模擬，研究提出MobCache框架，利用可重建的潛在空間快取與行動感知解碼器，提高LLM模擬效率且保持多樣性。實驗顯示推論時間降低逾四成、成本下降近五成，品質與最先進方法相當。此技術預計降低城市模擬成本，促進隱私保護下的開放研究。

An infographic illustrating the Information Bound concept where optimal policy hiddenly contains n log m bits of environmental info, with details on MDPs, rewards, and AI safety applications.

深度分析

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊

研究探討在受控馬可夫過程中，觀測一個對任意非恆定獎勵函數最優的確定性政策，可精確得知環境中 n 個狀態與 m 個動作所包含的 n·log m 位元資訊，並證明此上界適用於有限、折扣與平均獎勵等多種目標設定。此結果提供了對於「隱性世界模型」的資訊下界，對 AI 安全與策略可解釋性具有重要啟示。

深度分析

多領域測試時縮放：生成式結果驗證模型（gORM）超越過程驗證模型的實證分析

研究重新評估多領域測試時縮放的獎勵模型，發現生成式結果驗證模型在14個領域均表現最佳，挑戰以步驟為單位的精細監督假設，並指出長推理鏈與標籤噪聲是關鍵影響因素，此結果促使未來在法律、醫療等高風險領域的 LLM 部署，更傾向採用生成式結果驗證以提升可信度。

LGF 透過神經符號結合與離散流模型提升 ODE 符號回歸表現

dMX 可微分混合精度框架提升 MXFP 低精度部署效能與準確率

「Xray‑Visual」：百億社群媒體資料驅動的高效能多模態 Vision Transformer

FlipSet 基準揭露視覺語言模型的 L2 視角推理自我中心偏誤與組合缺陷

DECO：解耦式多模態擴散變換器結合觸覺插件提升雙手靈巧操作效能

MSEA 與 ARC 提升多模態大型語言模型解釋性之方法與實驗

以 BNF 文法結合多代理 LLM 的試算表自動化系統 SheetMind

TOFFEE：結合蒙特卡羅樹搜尋與自適應成本模型的高品質資料代理人軌跡合成系統

AI 滲透測試代理人評估協議：以漏洞驗證為核心的多目標實驗

MobCache：基於潛在空間與行動感知的高效大型語言模型移動模擬快取框架

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊

多領域測試時縮放：生成式結果驗證模型（gORM）超越過程驗證模型的實證分析

資訊理論揭示最佳政策隱含的 n·log m 位元環境資訊