Soft Actor-Critic (SAC) 提升 Soft Actor-Critic(SAC)於大規模並行模擬下的腿型機器人訓練效能 在大規模並行模擬背景下,研究比較了PPO與SAC的差距,指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題;透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正,實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。