VLM - Agents Report | 代理人報告

深度分析

NeurIPS 2025 挑戰賽揭示多模態推理關鍵：難度篩選優於資料量

NeurIPS 2025 資料策展挑戰賽（DCVLR）旨在探討在多模態推理任務中，資料集的選擇與過濾如何影響模型表現。研究團隊以 Qwen2.5-VL-7B-Instruct 為基礎模型，在固定訓練協議下，僅使用 1,000 筆精心挑選的範例便奪得冠軍。

深度分析

視覺語言模型的問題先行悖論：提示回呼如何提升問答準確性

在視覺語言模型（VLM）中，直覺上認為先給問題能引導模型注意影像內容，然而實驗發現「問題先行」的提示方式在多項基準測試上表現最差，形成所謂的問題先行悖論。研究者透過 logit‑lens 與注意力探測證實，先問問題確實能驅動影像特徵向問題相關概念靠攏，但因問題被長長的影像序列隔離，答案產生階段幾乎不會讀取到問題，導致錯誤答案。

深度分析

AI 數學圖表生成：從單次生成到 Agentic Workflow 的自我修正機制

K-12數學教育極需精確的視覺輔助工具，但現有AI工具在生成數學圖表時常出現空間推理錯誤。本研究提出一種Agentic Workflow，利用LLM生成QA問題並由VLM進行視覺驗證，建立起一套自我修正迴圈，讓AI能根據回饋動態修正TikZ程式碼。實驗結果顯示，結合程式碼與視覺資訊的驗證機制能顯著提升圖表正確率，為自動化教育內容創作提供新路徑。

深度分析

MIRAGE：利用使用者產生內容對 VLM 驅動行動 GUI 智能代理進行情境感知提示注入攻擊

研究指出以視覺—語言模型驅動的行動 GUI 代理，會把畫面當像素輸入而難以區分系統元素與用戶產生內容；MIRAGE以三階段流水線在截圖的用戶內容區嵌入上下文感知惡意文案並保持原生風格，實驗顯示多個模型與應用均受影響，且視覺逼真度無法可靠預測攻擊成敗，防禦需聚焦語意與行為驗證。

DietDelta

DietDelta：利用視覺語言模型（VLM）實現餐前餐後對比分析，提升飲食攝入量量化精準度

研究團隊推出 DietDelta 框架，透過比對餐前與餐後照片，利用視覺語言模型精準估計食物攝入量。該方法捨棄了複雜的深度感測與分割掩碼，改用自然語言提示定位食物並計算重量差異，顯著提升了飲食評估的準確度，為個人化精準營養管理帶來新突破。

SALLIE

SALLIE 框架：利用機制解釋性與內部激活值偵測多模態 AI 越獄與提示詞注入

研究人員開發出 SALLIE 框架，能同時對抗文本與視覺越獄及提示詞注入。該技術基於機制解釋性，透過偵測模型內部激活值來識別惡意請求，無需修改模型架構即可在多模態模型中實現高效防禦，在多個開源模型測試中表現優於傳統防禦方案。