RoboLab - Agents Report | 代理人報告

速報

現有模擬基準與訓練集重疊，弱化泛化檢測。RoboLab在高擬真模擬中結合人類與大型語言模型生成場景，推出RoboLab-120包含視覺程序關聯三軸與多層次難度，並量化真實策略在受控擾動下的效能與敏感度，揭示先進模型仍存在顯著差距。加速評估任務通用性的可擴展工具集。