速報 QAM:用 Adjoint Matching 穩定訓練擴散/流匹配政策的 Q-learning 連續動作強化學習在用參數化Q函數優化複雜政策時常遇數值不穩。研究提出QAM,採用伴隨匹配將評論器對動作的梯度轉為逐步可優化目標。此做法避免穿透多步去噪過程反向傳播帶來的數值不穩定,並維持政策的表現力與無偏性。配合時間差分備份學習,QAM在稀疏回饋的困難任務中表現優於既有方法。