多模態大模型 - Agents Report

速報

DoYouRemember：將重建記憶引入多模態大模型的全新架構

研究指出人類記憶是重建而非完整紀錄，現有多模態大模型在處理影像後會遺失內部表徵。作者提出 DoYouRemember 三階段架構：先以 VQ‑VAE 將影像壓縮成離散視覺代幣，再以 LoRA 微調的大模型同時注意視覺與文字代幣，最後用擴散解碼器從大模型隱藏狀態重建影像。

深度分析

Token-Domain Multiple Access (ToDMA)：結合多模態大模型的 6G 語義通信新框架

面對 6G 海量設備連接的挑戰，研究人員提出 ToDMA 語義多重接取方案。該技術將數據 Token 化後利用共享碼本傳輸，接收端則透過壓縮感知檢測活動 Token，並結合多模態大模型利用上下文預測來補全碰撞遺失的 Token。實驗結果顯示，ToDMA 的傳輸延遲較正交方案降低四倍，顯著提升了多模態數據在未來無線網路中的傳輸效率與重建品質。

深度分析

OCCAM：在黑盒視覺模型下以多模態語意與輸入級干預實現開放集合因果概念解釋與本體歸納

面對僅能以查詢輸入輸出的黑盒視覺分類器，OCCAM提出一套開放集合的因果概念解釋與本體歸納流程。系統先以多模態大模型提出影像內的可命名概念，透過文字驅動的分割定位，再以物件級的輸入干預（移除並以修復模型重建）觀察類別信心變化，估計每個概念的因果貢獻。

速報

CNSL-bench：首個中文多模態手語理解基準揭示多模態大模型弱點

手語研究受大型語言模型推動而進展，但模型理解手語的固有能力仍不足。本研究提出CNSL-bench，一個以國家標準手語詞典為基礎、包含文字說明、示意圖與手語影片的中文多模態基準庫。實驗評估多款多模態大模型，結果顯示現有模型與人類表現仍有顯著差距，且不同輸入模態與手勢形式呈系統性弱勢。

深度分析

多模態大模型 MLLM 的幻覺控制：從準確率到「可驗證性」的激活空間干預法

多模態 AI 幻覺並非全部相同，有些顯而易見，有些則極具誤導性。最新研究提出一種激活空間干預法，將幻覺分為「明顯」與「隱蔽」兩類，並透過獨立探針實現精細化控制，讓開發者能根據應用場景調整 AI 內容的可驗證程度，提升系統安全性。