Hide‑and‑Seek:提升 VLA 機器人失敗偵測的新框架
Vision‑Language‑Action(VLA)模型能讓機器人依自然語言指令執行多樣任務,但在實際部署時仍易發生執行失敗,影響可靠度。研究提出「Hide‑and‑Seek」框架,將失敗偵測視為粗略監督學習問題,藉由跨軌跡與內部軌跡的對比目標,僅使用軌跡層級標籤即可定位失敗動作,免除逐步標註需求。
Vision‑Language‑Action(VLA)模型讓機器人能根據自然語言指令完成各式任務,但在真實環境中仍容易因執行失敗而降低可靠度。
為了在執行過程即時偵測失敗,研究團隊提出 Hide‑and‑Seek 框架,將失敗偵測問題重新定義為粗略監督的學習任務。該方法同時使用跨軌跡(inter‑trajectory)與內部軌跡(intra‑trajectory)的對比目標,僅依賴整體軌跡層級的標籤,即可自動產生具時間結構的失敗訊號,無需逐步標註。
實驗在三個基準平台——LIBERO、VLABench 以及實體機器人平台——上,針對 OpenVLA、π₀ 與 π₀·₅ 三種代表性 VLA 策略進行測試。結果顯示,Hide‑and‑Seek 在多任務失敗偵測上取得業界最佳表現,且在符合保守預測(conformal prediction)條件下,兼具高準確度與即時性。
此外,該框架對已見任務與未見任務皆展現良好泛化能力,證明僅靠軌跡層級監督即可有效捕捉局部失敗訊號,為機器人系統的可靠部署提供了新的解決思路。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。