VerbNet - Agents Report | 代理人報告

深度分析

研究以不尋常動作影像為切入，檢視視覺語言模型在事件語意理解的盲點。研究採用VerbNet篩選動詞、以語言模型生成誤導性文本並用文字生成影像合成資料集。實驗比較多種VLM與對比學習模型，結果顯示現有模型難以區分語法正確與語意正確，表現明顯低於人類。