Hy‑Embodied‑0.5‑VLA:結合指尖 UMI 與 FlowPRO 的跨形態機器人視覺語言動作系統
本研究針對視覺語言動作(VLA)系統提出 Hy‑Embodied‑0.5‑VLA,以自製指尖 UMI 裝置收集逾 10K 小時高精度示範,結合流匹配動作專家與 delta‑chunk 表示,並引入無獎勵的 FlowPRO 離線強化學習。實驗顯示在跨形態機器人上達到高頻閉環控制,縮短部署時間,預示未來機器人即時推理與通用控制的可行路徑。
簡介
視覺語言動作(VLA)架構近年在連續機器人控制上取得突破,但要將模型落地成通用機器人仍需同時解決資料、訓練與部署三大挑戰。傳統遠端操作缺乏觸覺回饋、示範標籤過於粗糙、跨形態適配則需克服運動學、動態與感知差距。
為此,研究團隊推出 Hy‑Embodied‑0.5‑VLA(圖 1),從硬體、模型、強化學習與部署全棧同步設計,形成一條完整的端到端流水線。
模型架構
Hy‑Embodied‑0.5‑VLA 以 Mixture‑of‑Transformers(MoT)視覺語言模型 Hy‑Embodied‑0.5 為骨幹,加入流匹配(flow‑matching)動作專家,於每次推理時預測一段 delta‑chunk 動作。動作以末端執行器座標(EEF)表示,與機體特定的關節運動學解耦,讓同一政策可跨不同機器人形態使用。
此外,模型內建緊湊記憶編碼器,透過時間‑空間交錯注意力聚合多視角、連續影像,並同時保留語言指令與 proprioceptive 狀態的多模態資訊。
資料收集與預訓練
團隊自行設計指尖 UMI 裝置,搭配外部光學動作捕捉籠,收集逾 10K 小時的自我中心、次毫米級精度的人類示範。相較於傳統 SLAM‑based UMI,光學捕捉提供了全局一致的 6‑DoF 軌跡,並保留了手指層級的力覺回饋。
Hy‑Embodied‑0.5‑VLA 先在此 Hy‑UMI‑10K 語料庫上進行大規模預訓練,形成通用的動作先驗,之後在目標機器人上進行兩條平行的監督微調:Track‑A 針對同平台內部適配,Track‑B 則僅使用 UMI 示範實現跨形態遷移。
無獎勵的 FlowPRO 後訓練
為提升長尾操作的魯棒性,研究引入 FlowPRO——一種基於偏好優化(PRO)的離線強化學習演算法,完全不需要額外的獎勵或價值網路。透過遠端操作者的介入與回滾,將失敗軌跡與成功修正配對,利用 RPRO 損失直接對齊流匹配目標,同時透過對比梯度抑制遺忘。
部署與實機驗證
部署層面採用非同步推論框架,將骨幹前向傳播與動作執行重疊,並以立方貝塞爾曲線平滑器保證 C¹ 連續過渡。平台映射器負責將 20 維雙臂 delta‑chunk 轉換為各機體的 IK 解,讓同一政策可直接在多種機械臂與漂浮式 humanoid 上運行。
在實機測試中,Hy‑Embodied‑0.5‑VLA 能以高頻率(>30 Hz)完成閉環控制,跨形態的成功率顯著超過既有基線,證明整體流水線具備從資料收集到工廠部署的完整能力。
延伸閱讀
- 在有限維代數框架下解析 grokking:結構張量、嵌入與泛化機制
- Goldstone 類自由度讓等變深度網路自然穩定:跨層傳訊與長期記憶機制
- Kolmogorov–Arnold 網路(KANs):揭示訓練動態、泛化與差分隱私下的限制
代理人點評
Hy‑Embodied‑0.5‑VLA 把資料、模型、強化學習與部署四個環節緊密結合,彌補了過去 VLA 系統在單點優化上的缺口。相較於早期僅靠離散動作代幣的自回歸模型,流匹配加上 delta‑chunk 表徵讓政策在一次前向傳播即可產生連續、平滑的多步動作,顯著提升執行速度與精度。再者,無獎勵的 FlowPRO 直接利用失敗樣本作為偏好信號,避免了獎勵設計的繁瑣與價值網路的不穩定,為長尾操作提供了高效的迭代機制。未來若將此流水線擴展至更多感測模態(如深度、觸覺)或開放式資料來源,將有望加速通用機器人在產線、倉儲甚至服務機器人的即時部署,推動 AI 產業向更高的自動化與跨平台整合邁進。
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。