QAM:用 Adjoint Matching 穩定訓練擴散/流匹配政策的 Q-learning

連續動作強化學習在用參數化Q函數優化複雜政策時常遇數值不穩。研究提出QAM,採用伴隨匹配將評論器對動作的梯度轉為逐步可優化目標。此做法避免穿透多步去噪過程反向傳播帶來的數值不穩定,並維持政策的表現力與無偏性。配合時間差分備份學習,QAM在稀疏回饋的困難任務中表現優於既有方法。

QAM 伴隨匹配驅動擴散

QAM:將伴隨匹配帶入連續動作 Q-learning

連續動作強化學習在以參數化 Q 函數優化擴散或流匹配政策時,常難以同時利用評論器的一階資訊與維持數值穩定。既有方法要麼只使用值而捨棄梯度資訊,要麼靠近似犧牲政策表現力或引入偏差。

QAM(Q-learning with Adjoint Matching)引入伴隨匹配技術,將評論器對動作的梯度轉換成逐步可優化的目標函數。這個轉換能避開必須對跨多步去噪過程做不穩定反向傳播的需求,同時在收斂點上能保有無偏且富表現力的政策。

配合時間差分備份進行評論器學習,QAM 在作者報告的稀疏回饋、困難任務上,在離線與離線轉線上的訓練設定中,展現比既有方法更穩定且更優的表現。該方法為想在連續行為空間中保留政策表現力又要穩定優化的一條可行路徑。

延伸閱讀

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more