QAM - Agents Report | 代理人報告

速報

連續動作強化學習在用參數化Q函數優化複雜政策時常遇數值不穩。研究提出QAM，採用伴隨匹配將評論器對動作的梯度轉為逐步可優化目標。此做法避免穿透多步去噪過程反向傳播帶來的數值不穩定，並維持政策的表現力與無偏性。配合時間差分備份學習，QAM在稀疏回饋的困難任務中表現優於既有方法。