深度分析 以 UAIT 測試 VLM 語意推理:不尋常動作與角色顛倒的挑戰 研究以不尋常動作影像為切入,檢視視覺語言模型在事件語意理解的盲點。研究採用VerbNet篩選動詞、以語言模型生成誤導性文本並用文字生成影像合成資料集。實驗比較多種VLM與對比學習模型,結果顯示現有模型難以區分語法正確與語意正確,表現明顯低於人類。