模擬到實機

Soft Actor-Critic (SAC)

在大規模並行模擬背景下，研究比較了PPO與SAC的差距，指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題；透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正，實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。

QDTraj

家庭機器人面對多關節物件操作仍受限。QDTraj利用Quality-Diversity演化探索，生成多樣且高效的低階軌跡原語，並在模擬與實機部署驗證可行性。實驗顯示在鉸鏈與滑軌任務上產生更多樣解。在PartNet-Mobility資料集中驗證,平均每任務產生704條軌跡,多樣性較其他方法提升5倍。