MLLM - Agents Report | 代理人報告

速報

MGDT：MLLM 引導擴散變換器，突破多模態知識圖譜補全瓶頸

多模態知識圖譜補全（MKGC）需從結構、文字與視覺線索推斷缺失實體。現有擴散模型直接在原始多模態特徵上進行去噪，迫使模型同時處理關係相關線索選取、跨模態語義對齊與結構感知實體生成，導致雜訊與語義不一致。

深度分析

利用 CDL 與 SDF 渲染的 FormalAnalyticGeo 框架自動生成高品質解析幾何題目

研究針對解析幾何資料稀缺，提出 FormalAnalyticGeo 框架，結合 CDL 形式語言與 SDF 渲染自動產生多模問題，並以品質驗證器閉環檢查，使誤差降至 0.7%，生成超過 7,000 題資料集。此技術比傳統模板或純生成模型在幾何精度與驗證上更具優勢，同時提供開放原始碼與可擴充的工具鏈，促進研究社群與產業合作。

深度分析

硬體感知的 Speculative Decoding 優化：SMART 框架在多模態與大型語言模型上提升推論速度

隨著自回歸生成成為AI生成的核心，傳統的逐字解碼速度受限。研究提出SMART框架，於推論時以硬體感知的邊際效益‑成本比決定是否擴展草稿樹，避免因樹太大而產生負加速。實驗顯示在多款MLLM與LLM上，平均可提升15%至20%的實際運算速度。對部署成本亦有顯著降低。

深度分析

長時脈絡與任務式提示如何改善 MLLM（視訊+聲音）與 fMRI 腦活動對齊

研究以自然敘事電影和fMRI探討時間脈絡長度與任務提示如何影響多模態大型語言模型(MLLM)與大腦的對齊。採用視訊+聲音MLLM與單模視訊基線比較，並以角色動機、事件界標、多場景與敘事摘要作為提示。結果顯示延長片段時長顯著提升MLLM在高階語義腦區的對齊，而單模視訊模型未見同等收益。

深度分析

以動態區域搜尋（DRS-GUI）與MCTS提升MLLM在高密度GUI定位的穩定性

面對高解析且元件密集的截圖，GUI代理常被干擾而難以定位。DRS-GUI以訓練免疫的動態區域搜尋補強MLLM，透過UIPerceptor與聚焦、轉移、擴散三種感知動作，以及MCTS規劃與區域品質獎勵，逐步生成並選出最相關視窗。實驗在ScreenSpot-Pro上顯著提升定位表現。

深度分析

行為軌跡驅動的隱私個人化 GUI 代理優化技術（TIPO）

行動 GUI 代理在執行任務時常忽視使用者隱私需求。本研究提出 TIPO，利用偏好強度加權與填充門控，針對隱私導向的執行軌跡進行優化。實驗證明在多項 GUI 任務中，TIPO 同時提升任務成功率與隱私合規性，顯示其在個人化 AI 代理領域的潛在價值。

深度分析

多模態大模型 MLLM 的幻覺控制：從準確率到「可驗證性」的激活空間干預法

多模態 AI 幻覺並非全部相同，有些顯而易見，有些則極具誤導性。最新研究提出一種激活空間干預法，將幻覺分為「明顯」與「隱蔽」兩類，並透過獨立探針實現精細化控制，讓開發者能根據應用場景調整 AI 內容的可驗證程度，提升系統安全性。