影片理解 - Agents Report

深度分析

多模態大型語言模型在影片理解任務中普遍假設答案必在選項內。研究透過移除正確答案並加入「以上皆非」或開放式指示，測試模型偵測缺失答案的能力。結果顯示，大多模型仍選擇最合理的干擾選項，尤其在時間推理任務與高幀率取樣下偵測率更低。此缺陷凸顯影片MLLM在可靠性與批判思考上的不足。