視覺語言模型 - Agents Report | 代理人報告 (Page 4)

速報

Pause‑and‑Think‑T：小型視覺語言模型的情境推理突破

近期的視覺語言模型在影片的實體推理、時間一致性與情境規劃上表現不佳。研究團隊推出以推理為核心的訓練資料集 pause‑and‑think‑T，要求模型在產生答案前先暫停、檢視視覺證據並形成簡潔可執行的回應。

深度分析

Zamba2‑VL：混合狀態空間與 Transformer 架構在視覺語言任務的效能突破

隨著多模態模型成為視覺語言介面的核心，Zamba2‑VL 以混合 Mamba2 與少量 Transformer 區塊構成，結合線性時間預填與固定大小狀態，於 1.2B、2.7B、7B 參數規模上，效能與 Molmo2、Qwen3‑VL 等同階模型相當，且在推論速度上快上數十倍。

速報

StressDream：導向高衝擊且合理影像的擴散式影片世界模型

研究團隊提出 StressDream，透過優化擴散式影片世界模型的初始噪聲，使想像的未來影像朝向高衝擊但仍合理的結果發展。此方法結合視覺語言模型提供的語意梯度與合理性目標，避免噪聲偏離分佈。實驗以自駕與機械手臂的最先進影片模型驗證，證明可在推論時以文字指定失敗情境，協助更穩健的策略評估與改進，找出可能導致不良結果的動作。

深度分析

Vesta：結合視覺語言模型的動態統計工具平台，提升資料模型自動化與天文應用

Vesta以視覺語言模型結合可動態產生的統計工具，針對資料分布與時間序列建模進行自動化探索。透過工具庫的累積與即時創建，系統能在模型提案、批評與精煉迴圈中以視覺診斷引導改進。實驗顯示在複雜天文與混合分布任務上，Vesta超越既有基線，顯示動態工具對提升AI科學工作流具重大影響。

深度分析

MaskCaptioner：結合 OVFormer 與 Gemini 2.0 Flash VLM 的密集影片物件標註新框架

研究提出MaskCaptioner，利用先進視覺語言模型自動產生影片中每個物件的遮罩與文字敘述，並以LVISCap與LV‑VISCap兩套合成資料集進行端到端訓練，於VidSTG、VLN與BenSMOT三大基準創下最新成績，顯示合成標註可提升密集影片敘述效能。

深度分析

EAGLE 框架：透過證據對齊提升多代理視覺問答的可靠性與可解釋性

隨著視覺語言模型在視覺問答上表現提升，多代理協作被提出。研究提出 EAGLE 框架，透過顯示證據對齊與視覺根據驗證，提升六項基準的整體正確率，展示以影像證據為基礎的多代理一致性可大幅提升可靠性。此外，EAGLE 免除額外訓練成本，具備可解釋性，於高解析度與複雜空間推理任務中領先現有方案。

深度分析

PiSAR 基準：受監督微調（LoRA）使 Qwen3‑VL‑8B 在螢幕導向行為理據任務超越 Claude Opus 與 GPT‑5.5

本報導改寫自一篇針對 PiSAR 屏幕條件化行為理據資料集的實驗報告。作者在 661 行留置測試上，對比前沿零樣本基線（Claude Opus、GPT-5.5）與受監督微調（managed LoRA）後的小型視覺語言基底（Qwen3‑VL‑8B‑Instruct）。

速報

視覺語言模型(VLM)在古希臘史料OCR上出現流暢性誤讀

研究以視覺語言模型(VLM)檢視史料OCR表現。採用受控影像擾動與逐詞分級判定，發現多數VLM即使文字流暢也可能不以視覺為依據，錯誤具語言先驗傾向；專用OCR與通用VLM在視覺依賴上差異明顯，解碼時修正效果有限，後處理語言模型能部分補救。具有實務意涵

深度分析

CIVIC：以路徑一致性端到端序列緊湊化降低 VLM 的 KV-cache 與延遲

視覺語言模型面臨高解析影像造成的記憶與延遲瓶頸。CIVIC 提出全程路徑一致的緊湊序列設計，透過錨點聚合、KV 壓縮注意力與文本對齊的 KL 蒸餾，避免重複稠密還原與路由開銷。實驗證明能顯著縮減KV-cache與整體推論延遲，同時維持多模態效能表現。

深度分析

以 UAIT 測試 VLM 語意推理：不尋常動作與角色顛倒的挑戰

研究以不尋常動作影像為切入，檢視視覺語言模型在事件語意理解的盲點。研究採用VerbNet篩選動詞、以語言模型生成誤導性文本並用文字生成影像合成資料集。實驗比較多種VLM與對比學習模型，結果顯示現有模型難以區分語法正確與語意正確，表現明顯低於人類。

深度分析

以社交凝視一致性檢測生成式影像：針對去噪擴散模型與局部重繪的語義線索

在生成式模型逐步抹去低階偵測訊號的當下，研究提出「社交凝視一致性」作為一條高階語義偵測軸，聚焦多人人像中目光、頭眼對齊與瞳孔位置的互動一致性。作者透過配對編輯（只重繪眼周）、一套區塊式說明監督與跨架構驗證，證明此語義線索可跨生成器與不同骨幹遷移，於互動型子集上帶來可觀的平衡準確度提升，並指出這類語義線索將隨低階訊號消失而愈發重要。

深度分析

FoodMonitor 基準：以逐幀定位與結構化生成評估廚房合規監測的多模態大語言模型

監視影像要從「異常偵測」升級到可追溯的合規分析，FoodMonitor以477段廚房影片、雙通道逐幀標註與結構化JSON輸出，提出兩階段比對評估定位與語義理解，並發現現有多模態大語言模型在空間定位與規則對應上仍有顯著短板，最佳複合評分僅0.360。