Vision-Language-Action - Agents Report

深度分析

Jetson-PI 以未來校正模組優化 Vision‑Language‑Action 非同步推論，實現 6 Hz 以上控制頻率

研究針對在JetsonOrin等低功耗晶片上部署Vision‑Language‑Action模型的延遲問題，提出以未來校正為核心的Jetson‑PI方法，透過輕量化未來環境預測與信心排程，同步提升推論頻率與反應速度。實驗顯示在LIBERO基準上控制頻率提升逾八倍，成功率提升近十五%。

深度分析

Cortex 框架以 32 種技能原語實現長時程機器人任務的雙向對齊

近期長時程機器人操作受限於單一回饋的 Markov 偏差，Cortex 透過雙向對齊的規劃介面，將高層語意轉化為 32 種可執行技巧，並加入物理可行性原則，自動標註大量影片與模擬資料。實驗證實其在長時程基準上提升數個百分點，並成功零樣本完成複雜化學任務。

深度分析

vla.cpp：基於 ggml 的跨平台 Vision‑Language‑Action 推論引擎

vla.cpp以C++為基礎，提供跨平台的Vision‑Language‑Action推論引擎，支援多種骨幹與動作頭，並在JetsonOrin等嵌入式裝置上以1.3 GiB記憶體完成100%成功率測試，顯示計算密集的視覺前綴決定效能，記憶體則是瓶頸。

深度分析

VISTA 框架：結合魚眼視角與物理驗證的通用視覺語言動作模型

手持式操作介面（UMI）提供大規模機器人示範資料，但視覺與物理不匹配阻礙通用視覺語言動作模型的訓練。VISTA 框架以首創 UMI‑VQA 校正魚眼視角，並透過系統化物理驗證篩選可執行軌跡，採用雙階段共訓整合視覺、語言與動作。實驗在多項實體與模擬任務上超越多個基線，證明手持示範資料的有效利用。

深度分析

TRAP 攻擊：利用對抗貼片劫持 VLA 模型的 Chain‑of‑Thought 推理

研究指出，將Chain‑of‑Thought推理加入視覺語言行動模型可提升通用性，但同時成為攻擊新向量。研究者提出TRAP攻擊，以紙製對抗貼片干擾中間推理，成功誘導機器人執行錯誤動作。實驗顯示在三種模型上均能高成功率劫持，凸顯須加強CoT安全防護。

速報

Hide‑and‑Seek：提升 VLA 機器人失敗偵測的新框架

Vision‑Language‑Action（VLA）模型能讓機器人依自然語言指令執行多樣任務，但在實際部署時仍易發生執行失敗，影響可靠度。研究提出「Hide‑and‑Seek」框架，將失敗偵測視為粗略監督學習問題，藉由跨軌跡與內部軌跡的對比目標，僅使用軌跡層級標籤即可定位失敗動作，免除逐步標註需求。

深度分析

GR00T N1.7：結合 Cosmos‑Reason2‑2B 與 EgoScale 的商業授權機器人基礎模型

NVIDIA推出開源商業授權的Isaac GR00T N1.7視覺語言行動模型，利用超過2萬小時的人類第一人稱影片預訓練，實現多步推理與指尖級操作，提升機器人靈活度並支援工廠部署。平台，且可於GitHub與Hugging取得。

深度分析

Dejavu：利用經驗回饋網路提升具身智慧代理的適應性與成功率

具身代理在實際環境部署後難以自行獲取新知。Dejavu 以經驗回饋網路 (EFN) 從累積的執行記憶檢索語意相似的先前動作，並在強化學習獎勵下調整 VLA 策略。部署時持續擴增記憶庫，使代理具備「從經驗學習」能力，實驗顯著提升適應性與成功率。

深度分析

NXP i.MX 95 搭載 VLA 模型：全流程最佳化與即時推論

隨著大型語言模型進入多模態時代，Vision‑Language‑Action (VLA) 模型成為機器人新焦點。NXP 以資料錄製、VLA 微調與非同步推論結合硬體分割、量化等技巧，將 ACT、SmolVLA 在 i.MX 95 上的推論延遲從數秒降至 0.3 秒，同時保持高準確度。此成果展示嵌入式機器人可在低功耗平台上實現即時多相機感知與控制，推動 AI 機器人商業化。

深度分析

LeRobot v0.5.0 發布：完整支援 Unitree G1 人形機器人與高速 Real‑Time Chunking 資料管線

LeRobot v0.5.0 在支援硬體與模型上同步擴張，首次完整整合 Unitree G1 人形機器人，提供全身控制與遠端操作；新加入的 Pi0-FAST、Real-Time Chunking 等政策提升即時推論與長程任務學習；即時串流影片編碼與 10 倍影像訓練加速大幅縮短資料處理時間，推動開源機器人學習向更廣泛應用發展。

Jetson-PI 以未來校正模組優化 Vision‑Language‑Action 非同步推論，實現 6 Hz 以上控制頻率

Cortex 框架以 32 種技能原語實現長時程機器人任務的雙向對齊

vla.cpp：基於 ggml 的跨平台 Vision‑Language‑Action 推論引擎

VISTA 框架：結合魚眼視角與物理驗證的通用視覺語言動作模型

TRAP 攻擊：利用對抗貼片劫持 VLA 模型的 Chain‑of‑Thought 推理

Hide‑and‑Seek：提升 VLA 機器人失敗偵測的新框架

GR00T N1.7：結合 Cosmos‑Reason2‑2B 與 EgoScale 的商業授權機器人基礎模型

Dejavu：利用經驗回饋網路提升具身智慧代理的適應性與成功率

NXP i.MX 95 搭載 VLA 模型：全流程最佳化與即時推論

LeRobot v0.5.0 發布：完整支援 Unitree G1 人形機器人與高速 Real‑Time Chunking 資料管線

Jetson-PI 以未來校正模組優化 Vision‑Language‑Action 非同步推論，實現 6 Hz 以上控制頻率

NXP i.MX 95 搭載 VLA 模型：全流程最佳化與即時推論