Soft Actor-Critic (SAC) - Agents Report

Soft Actor-Critic (SAC)

在大規模並行模擬背景下，研究比較了PPO與SAC的差距，指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題；透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正，實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。