RoboLab:以模擬基準揭露通用機器人策略的泛化缺口

現有模擬基準與訓練集重疊,弱化泛化檢測。RoboLab在高擬真模擬中結合人類與大型語言模型生成場景,推出RoboLab-120包含視覺程序關聯三軸與多層次難度,並量化真實策略在受控擾動下的效能與敏感度,揭示先進模型仍存在顯著差距。加速評估任務通用性的可擴展工具集。

RoboLab 模擬基準顯示泛化缺口

RoboLab:針對泛化缺口的模擬基準框架

RoboLab在高擬真模擬環境中,支援人類作者與大型語言模型共同生成場景與任務,並以機器人與策略無關的方式進行測試。這套框架旨在回答:從模擬中能在多大程度理解真實策略的表現?哪些因素最強烈影響策略行為?

研究團隊同時提出RoboLab-120基準,包含120項任務,按視覺、程序、關聯三個能力軸分類,並設多層次難度以拓展挑戰範圍。RoboLab提供細緻度量與可擴展工具集,方便在不同擾動下評估策略的敏感度與穩定性。

進一步的系統分析顯示,當前最先進的真實世界策略在受控擾動下仍出現明顯性能差距,強調需要更嚴格的泛化評測。更多資訊與工具集可見專案頁面:https://research.nvidia.com/labs/srl/projects/robolab/

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more