深度分析 Q-align DT:以Q函數對齊RTG以提升Decision Transformer的可控性 離線強化學習常以Return-to-Go作為控制信號。Q-alignDT引入輔助Q函數、RTG擾動與對齊損失,加強RTG與策略行為的一致性。實驗顯示提升RTG可控性並在D4RL上達到競爭表現。理論證明透過順序限制縮小策略類別,並在速度追蹤等任務示範零樣本轉移能力。