VLM-DeflectionBench - Agents Report

深度分析

LVLM 失實與拒答評測：VLM-DeflectionBench 基準與動態資料管線

大型視覺語言模型在多模態問答上依賴檢索，但現有測試忽略視覺與文字衝突及拒答需求。研究建立動態資料管線與 VLM-DeflectionBench 基準，包含 2,775 筆檢索依賴樣本，並設計四種評估情境分離記憶與檢索表現。實驗發現模型在噪聲證據下多數無法拒答，突顯檢索魯棒性不足，對未來 KB‑VQA 評測具有重要啟示。