深度分析
TRAP 攻擊:利用對抗貼片劫持 VLA 模型的 Chain‑of‑Thought 推理
研究指出,將Chain‑of‑Thought推理加入視覺語言行動模型可提升通用性,但同時成為攻擊新向量。研究者提出TRAP攻擊,以紙製對抗貼片干擾中間推理,成功誘導機器人執行錯誤動作。實驗顯示在三種模型上均能高成功率劫持,凸顯須加強CoT安全防護。
深度分析
研究指出,將Chain‑of‑Thought推理加入視覺語言行動模型可提升通用性,但同時成為攻擊新向量。研究者提出TRAP攻擊,以紙製對抗貼片干擾中間推理,成功誘導機器人執行錯誤動作。實驗顯示在三種模型上均能高成功率劫持,凸顯須加強CoT安全防護。
速報
Vision‑Language‑Action(VLA)模型能讓機器人依自然語言指令執行多樣任務,但在實際部署時仍易發生執行失敗,影響可靠度。研究提出「Hide‑and‑Seek」框架,將失敗偵測視為粗略監督學習問題,藉由跨軌跡與內部軌跡的對比目標,僅使用軌跡層級標籤即可定位失敗動作,免除逐步標註需求。
深度分析
NVIDIA推出開源商業授權的Isaac GR00T N1.7視覺語言行動模型,利用超過2萬小時的人類第一人稱影片預訓練,實現多步推理與指尖級操作,提升機器人靈活度並支援工廠部署。平台,且可於GitHub與Hugging取得。
深度分析
具身代理在實際環境部署後難以自行獲取新知。Dejavu 以經驗回饋網路 (EFN) 從累積的執行記憶檢索語意相似的先前動作,並在強化學習獎勵下調整 VLA 策略。部署時持續擴增記憶庫,使代理具備「從經驗學習」能力,實驗顯著提升適應性與成功率。
深度分析
隨著大型語言模型進入多模態時代,Vision‑Language‑Action (VLA) 模型成為機器人新焦點。NXP 以資料錄製、VLA 微調與非同步推論結合硬體分割、量化等技巧,將 ACT、SmolVLA 在 i.MX 95 上的推論延遲從數秒降至 0.3 秒,同時保持高準確度。此成果展示嵌入式機器人可在低功耗平台上實現即時多相機感知與控制,推動 AI 機器人商業化。
深度分析
LeRobot v0.5.0 在支援硬體與模型上同步擴張,首次完整整合 Unitree G1 人形機器人,提供全身控制與遠端操作;新加入的 Pi0-FAST、Real-Time Chunking 等政策提升即時推論與長程任務學習;即時串流影片編碼與 10 倍影像訓練加速大幅縮短資料處理時間,推動開源機器人學習向更廣泛應用發展。