Q-align DT - Agents Report | 代理人報告

深度分析

離線強化學習常以Return-to-Go作為控制信號。Q-alignDT引入輔助Q函數、RTG擾動與對齊損失，加強RTG與策略行為的一致性。實驗顯示提升RTG可控性並在D4RL上達到競爭表現。理論證明透過順序限制縮小策略類別，並在速度追蹤等任務示範零樣本轉移能力。