物理驗證 - Agents Report

深度分析

手持式操作介面（UMI）提供大規模機器人示範資料，但視覺與物理不匹配阻礙通用視覺語言動作模型的訓練。VISTA 框架以首創 UMI‑VQA 校正魚眼視角，並透過系統化物理驗證篩選可執行軌跡，採用雙階段共訓整合視覺、語言與動作。實驗在多項實體與模擬任務上超越多個基線，證明手持示範資料的有效利用。