速報
弱對齊第一人稱視角下的視覺語言模型:Machine-DevBench 與 EgoBabyVLM 挑戰
研究指出當前視覺語言模型難以從嬰幼兒與第一人稱影像學到穩定語義。研究以不同語義對齊資料訓練模型並提出以詞彙與語法為核心的Machine-DevBench作為評估。結果顯示模型依賴精準配對資料,無法善用弱對齊自然視角,並提出EgoBabyVLM Challenge以促進改進。
速報
研究指出當前視覺語言模型難以從嬰幼兒與第一人稱影像學到穩定語義。研究以不同語義對齊資料訓練模型並提出以詞彙與語法為核心的Machine-DevBench作為評估。結果顯示模型依賴精準配對資料,無法善用弱對齊自然視角,並提出EgoBabyVLM Challenge以促進改進。
深度分析
研究指出,單靠機器人軌跡難以建立全面物理常識。本研究把大量人類第一人稱互動影像編譯成結構化場景記錄,再轉為物理問答供訓練。接著以保能力且敏感語言的方式,將這些物理先驗轉移至視覺語言行為策略。結果在多項多模態問答與實體控制基準上達到領先,並顯示強烈的域外泛化能力。