深度分析 LVLM 失實與拒答評測:VLM-DeflectionBench 基準與動態資料管線 大型視覺語言模型在多模態問答上依賴檢索,但現有測試忽略視覺與文字衝突及拒答需求。研究建立動態資料管線與 VLM-DeflectionBench 基準,包含 2,775 筆檢索依賴樣本,並設計四種評估情境分離記憶與檢索表現。實驗發現模型在噪聲證據下多數無法拒答,突顯檢索魯棒性不足,對未來 KB‑VQA 評測具有重要啟示。