第一人稱影像 - Agents Report

深度分析

研究指出，單靠機器人軌跡難以建立全面物理常識。本研究把大量人類第一人稱互動影像編譯成結構化場景記錄，再轉為物理問答供訓練。接著以保能力且敏感語言的方式，將這些物理先驗轉移至視覺語言行為策略。結果在多項多模態問答與實體控制基準上達到領先，並顯示強烈的域外泛化能力。