深度分析 從 ReMax 到 ReMAC:連續動作空間的策略梯度探索新方法 在強化學習中探索仍是核心挑戰。研究將Retry‑based ReMax目標擴展至連續動作空間,利用路徑導數調整梯度方向與幅度,促進隨機探索。分析指出,均值遠離最優且σ小時梯度提升σ;接近最優時梯度幅度被抑制,Adam正則可緩解。實驗顯示ReMAC在無熵正則下提升策略熵,表現與SAC相當。