深度分析 PhysBrain 1.0 將第一人稱影片編譯為物理化監督,擴展 VLM 到 VLA 研究指出,單靠機器人軌跡難以建立全面物理常識。本研究把大量人類第一人稱互動影像編譯成結構化場景記錄,再轉為物理問答供訓練。接著以保能力且敏感語言的方式,將這些物理先驗轉移至視覺語言行為策略。結果在多項多模態問答與實體控制基準上達到領先,並顯示強烈的域外泛化能力。