深度分析 多模態大型語言模型影片理解缺失答案偵測之系統性診斷與結果分析 多模態大型語言模型在影片理解任務中普遍假設答案必在選項內。研究透過移除正確答案並加入「以上皆非」或開放式指示,測試模型偵測缺失答案的能力。結果顯示,大多模型仍選擇最合理的干擾選項,尤其在時間推理任務與高幀率取樣下偵測率更低。此缺陷凸顯影片MLLM在可靠性與批判思考上的不足。