大型視覺語言模型 - Agents Report

深度分析

SAB‑LVLM：意義感知二值化技術提升大型視覺語言模型效能

大型視覺語言模型因參數龐大在資源受限裝置上難以部署。研究提出SAB‑LVLM，透過空間意義圖與模態導向整合，生成意義感知二值化映射，並於二值化目標中加入誤差重加權。實驗顯示在約1位元壓縮下，該方法在多項基準上優於既有二值化方案，提升效能與壓縮率。

深度分析

LVLM 失實與拒答評測：VLM-DeflectionBench 基準與動態資料管線

大型視覺語言模型在多模態問答上依賴檢索，但現有測試忽略視覺與文字衝突及拒答需求。研究建立動態資料管線與 VLM-DeflectionBench 基準，包含 2,775 筆檢索依賴樣本，並設計四種評估情境分離記憶與檢索表現。實驗發現模型在噪聲證據下多數無法拒答，突顯檢索魯棒性不足，對未來 KB‑VQA 評測具有重要啟示。

深度分析

ReflectCAP：結構化反射筆記提升高精細圖像說明的事實性與覆蓋率

詳細圖像說明需兼顧事實根據與細部覆蓋。ReflectCAP 透過多代理分析大型視覺語言模型的幻覺與遺漏，生成結構化反射筆記於推論時引導模型避免錯誤並聚焦關鍵資訊。實驗顯示在多款 LVLM 上達到事實性與覆蓋率的最佳平衡，且計算開銷較傳統多代理流程降低 21‑36%。