Soft Actor-Critic (SAC)
提升 Soft Actor-Critic(SAC)於大規模並行模擬下的腿型機器人訓練效能
在大規模並行模擬背景下,研究比較了PPO與SAC的差距,指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題;透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正,實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。
Soft Actor-Critic (SAC)
在大規模並行模擬背景下,研究比較了PPO與SAC的差距,指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題;透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正,實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。
QDTraj
家庭機器人面對多關節物件操作仍受限。QDTraj利用Quality-Diversity演化探索,生成多樣且高效的低階軌跡原語,並在模擬與實機部署驗證可行性。實驗顯示在鉸鏈與滑軌任務上產生更多樣解。在PartNet-Mobility資料集中驗證,平均每任務產生704條軌跡,多樣性較其他方法提升5倍。