視覺語言模型在語言預測上與人類行為的對齊度提升

研究者將五種最新的視覺語言模型與 600 名受測者同時放入網路版 Visual-World 實驗,讓他們在觀看六秒短片時,同步判斷下一個詞彙的出現機率,並追蹤眼球移動。結果顯示,加入視覺資訊後,模型與人類在可預測性評分上的相關性提升(平均 Δr = 0.18),且模型參數規模對此影響不大。

視覺語言模型跨模態預測

實驗設計與參與者

研究團隊選取五套最先進的預訓練視覺語言模型,與 600 名網路參與者同時進行 Visual-World Paradigm 測試。每位受測者觀看 100 段長度六秒的影片,系統提供純文字或同步的視訊與文字兩種條件,受測者需評估指定目標詞彙在下一瞬間出現的機率,同時記錄眼動資料。

視覺資訊對模型與人類對齊度的影響

結果顯示,加入視覺情境後,所有模型的可預測性評分與人類評分之相關係數提升,平均 Δr 為 0.18,且模型參數規模(從小到大)對此提升無顯著差異。

跨模態注意力的角色

在畫面提供明確線索時,Transformer 系統的跨模態注意力顯著增強模型與人類的對齊度。兩個 Transformer 模型的注意力熱圖與受測者的凝視點高度相符,解釋了最高 70% 的受測者間變異。

語意線索與預測凝視

研究發現,跨模態注意力能追蹤人類在語意線索上的預先凝視,說明模型在關鍵資訊上會自動聚焦,進而提升語言預測的準確度。

結論

本研究證實,當前基於 Transformer 的視覺語言模型在利用視覺情境進行語言預測時,可近似人類行為。關鍵在於模型對資訊豐富線索的選擇性注意,而非單純依賴模型規模。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more