深度分析 PAVE:以評價者幾何正則化提升深度強化學習策略平滑性 研究指出持續演員-評價者方法會產生高頻抖動,提出以批評者幾何為核心的PAVE框架,透過混合偏導正則化與曲率保留降低Q梯度波動。實驗在六項MuJoCo與Gymnasium環境驗證,未改動演員即達到與傳統平滑方法相當的平滑度與魯棒性,同時維持任務回報。