經驗轉移 - Agents Report

深度分析

強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡，並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率，顯著優於現有基線。