深度分析
LVLM 失實與拒答評測:VLM-DeflectionBench 基準與動態資料管線
大型視覺語言模型在多模態問答上依賴檢索,但現有測試忽略視覺與文字衝突及拒答需求。研究建立動態資料管線與 VLM-DeflectionBench 基準,包含 2,775 筆檢索依賴樣本,並設計四種評估情境分離記憶與檢索表現。實驗發現模型在噪聲證據下多數無法拒答,突顯檢索魯棒性不足,對未來 KB‑VQA 評測具有重要啟示。
深度分析
大型視覺語言模型在多模態問答上依賴檢索,但現有測試忽略視覺與文字衝突及拒答需求。研究建立動態資料管線與 VLM-DeflectionBench 基準,包含 2,775 筆檢索依賴樣本,並設計四種評估情境分離記憶與檢索表現。實驗發現模型在噪聲證據下多數無法拒答,突顯檢索魯棒性不足,對未來 KB‑VQA 評測具有重要啟示。
深度分析
詳細圖像說明需兼顧事實根據與細部覆蓋。ReflectCAP 透過多代理分析大型視覺語言模型的幻覺與遺漏,生成結構化反射筆記於推論時引導模型避免錯誤並聚焦關鍵資訊。實驗顯示在多款 LVLM 上達到事實性與覆蓋率的最佳平衡,且計算開銷較傳統多代理流程降低 21‑36%。