強化學習 - Agents Report

深度分析

在強化學習中探索仍是核心挑戰。研究將Retry‑based ReMax目標擴展至連續動作空間，利用路徑導數調整梯度方向與幅度，促進隨機探索。分析指出，均值遠離最優且σ小時梯度提升σ；接近最優時梯度幅度被抑制，Adam正則可緩解。實驗顯示ReMAC在無熵正則下提升策略熵，表現與SAC相當。