弱對齊第一人稱視角下的視覺語言模型:Machine-DevBench 與 EgoBabyVLM 挑戰
研究指出當前視覺語言模型難以從嬰幼兒與第一人稱影像學到穩定語義。研究以不同語義對齊資料訓練模型並提出以詞彙與語法為核心的Machine-DevBench作為評估。結果顯示模型依賴精準配對資料,無法善用弱對齊自然視角,並提出EgoBabyVLM Challenge以促進改進。
摘要
新研究報告指出,現今的視覺語言模型在面對嬰幼兒或第一人稱視角的自然影像時,表現不如人類那般穩健。研究團隊以不同語義對齊程度的資料集訓練模型,從自然化的嬰幼兒與成人第一人稱影片到網路整理資料,檢驗模型的泛化能力。
方法與基準
為了公平評估訓練與測試的一致性,研究提出Machine-DevBench,一個以詞彙與語法能力為核心、根據訓練語彙自動生成的基準套件,旨在避免先前發展基準的訓練/評估不匹配與統計檢定力不足問題。研究同時衡量多模態語言理解以及單模態視覺與語言任務的表現。
主要發現與意義
實驗結果顯示,現行VLM範式嚴重仰賴語義緊密配對的整理資料,無法充分利用主導自然第一人稱輸入的弱對齊訊號——這正是人類嬰幼兒能從中穩健學習語言的情境。為了推動對弱對齊、自然視角資料學習能力的研究,團隊提出EgoBabyVLM Challenge,期待促進能從人類嬰兒般經驗中學習的視覺語言模型發展。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。