深度分析 WOMBET:結合世界模型與不確定性懲罰的機器人強化學習經驗轉移框架 強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡,並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率,顯著優於現有基線。