多模態大型語言模型 - Agents Report

深度分析

「ActiveVision」基準揭示大型多模態語言模型的主動視覺觀測瓶頸

研究指出人類視覺需主動觀測，推出 ActiveVision 基準測試大型多模態語言模型的迭代視覺推理能力。實驗發現即使最先進模型也只能正確解答約十分之一，且在多項任務上得分為零；相較之下三位人類受測者平均正確率達九十六點一百分比，顯示目前模型在主動觀測上仍有明顯不足。

深度分析

MSEA 與 ARC 提升多模態大型語言模型解釋性之方法與實驗

隨著多模態大型語言模型在視覺問答與影像描述等任務上表現突出，研究者發現現有解釋方法忽略模態內部相互作用。為此提出多尺度說明聚合（MSEA）與激活排名相關（ARC）兩項技術，分別整合多解析度影像與抑制前文干擾。實驗顯示在 COCO Caption 等基準上解釋精度提升 3.7% 至 14.5%，提升模型透明度與風險可控性。

深度分析

多模態大型語言模型於互動式儀表板的自動重建：Dashboard2Code、Benchmark DashboardMimic 與 Gemini 3 Pro 成果

自動化視覺化近年因多模態大型語言模型快速進步而蓬勃發展，但多聚焦於靜態圖表，忽略了實務上常見的互動式儀表板。研究提出 Dashboard2Code 任務，要求模型在執行點擊、篩選等操作時即時收集回饋，並產出可重現原儀表板的程式碼。

速報

概念導向即時分割（CG-ICS）提升系統穩定性與精準度

即時分割（ICS）要求模型僅靠少量參考圖與遮罩，即可在查詢圖上完成目標區域分割，且不更新參數。過往研究多聚焦於精度，忽略了系統在不同參考圖下的穩定性。

深度分析

基於資訊理論的視覺代幣剪枝框架 TOPS 在多模態大型語言模型中的效能突破

多模態大型語言模型面臨視覺代幣過多的效能瓶頸。TOPS 從資訊理論出發，提出任務相關、資訊覆蓋與語意多樣三原則，建構最佳保留代幣集合。實驗證明在 LLaVA‑NeXT 等模型上削減77.8%代幣，仍能維持100%以上效能，顯示剪枝可降低計算成本並減少幻覺。

深度分析

「強制延期攻擊」揭露多模態大型語言模型級聯推論的計算分配漏洞

隨著多模態大型語言模型因視覺推理需求而成本飆升，業界採用弱模型先行、信心不足時再交由強模型的級聯策略。研究提出「強制延期攻擊」(FDA)，透過在影像邊緣加入通用觸發器，降低弱模型信心，使查詢被迫轉至強模型。實驗顯示該攻擊在多種資料集與模型上均能提升強模型路由率，削弱級聯效能。

深度分析

以強化學習驅動的 SVoT 框架實現可驗證的多步空間推理

隨著多模態大型語言模型在規劃任務上仍缺乏可靠的多步空間推理，研究提出 SVoT 以強化學習產生可驗證的中間狀態與視覺化，並加入轉移推理鏈。實驗在五個擴充的格子環境中顯示，SVoT 在跨領域測試上提升最高 65% 的準確率，顯示此框架有望提升機器人與自駕等實務應用的可靠性。

深度分析

EMT‑QA 與 DRH：閉環蒸餾在機械手臂任務中的最少步驟預測

研究針對探索式操作追蹤提出閉環追蹤蒸餾，利用每任務編碼代理萃取單行閱讀啟發（DRH），於推論時僅以凍結VLM加上DRH即可提升鏈條預測準確度0.38‑0.47，顯示純提示即可彌補多模態模型的閱讀缺失。相較於僅靠失敗偵測或視覺標記，DRH 以簡潔提示整合視覺與本體感測，預示機器人可在不重新訓練模型下適配任務。

速報

多模態大型語言模型的 Shapley 解釋新框架：結合文字與音訊特徵

本研究針對多模態大型語言模型（MLLM）提出一套擴充的 Shapley 值解釋方法，將文字 token 與音訊片段視為合作特徵。為因應跨通道依賴與計算成本，作者結合精確計算與蒙特卡羅抽樣，並使用 Neyman 配置降低變異。

深度分析

多模態大型語言模型影片理解缺失答案偵測之系統性診斷與結果分析

多模態大型語言模型在影片理解任務中普遍假設答案必在選項內。研究透過移除正確答案並加入「以上皆非」或開放式指示，測試模型偵測缺失答案的能力。結果顯示，大多模型仍選擇最合理的干擾選項，尤其在時間推理任務與高幀率取樣下偵測率更低。此缺陷凸顯影片MLLM在可靠性與批判思考上的不足。

深度分析

Trainee‑Bench：評估多模態大型語言模型在動態職場中的探索與持續學習能力

隨著多模態大型語言模型快速發展，研究多聚焦於靜態環境的效能上限，卻忽視真實職場的動態任務排程、主動探索與持續學習需求。作者提出 Trainee‑Bench，評測代理人在流式任務、資訊隱蔽與規則生成情境下的表現，實驗顯示現有 SOTA 代理人在探索與持續學習上仍有顯著缺口。

深度分析

StemBind：揭示多模態大型語言模型在抽象視覺推理中的規則綁定缺口

隨著多模態大型語言模型在抽象視覺推理上展現出「規則正確但答案錯」的現象，研究者推出StemBind診斷基準，透過同一視覺題幹的感知、規則與完整三題測試，發現超過半數模型在規則綁定步驟失敗，規模與思考模式亦未能改善。此結果顯示當前模型仍缺乏將抽象規則映射至具體選項的能力，呼籲未來研究聚焦於規則綁定機制與更精細的評估。