速報
Posterior Hybrid Bayesian Belief(PhyB)提升離線強化學習效能
離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數,提出 Posterior Hybrid Bayesian Belief(PhyB),將期望重新表達為動態模型子集合的凸組合,理論證明近似誤差有界。基於 PhyB,開發出具備單調改進保證的迭代正則化策略優化演算法,直至收斂。
速報
離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數,提出 Posterior Hybrid Bayesian Belief(PhyB),將期望重新表達為動態模型子集合的凸組合,理論證明近似誤差有界。基於 PhyB,開發出具備單調改進保證的迭代正則化策略優化演算法,直至收斂。
深度分析
離線強化學習常以Return-to-Go作為控制信號。Q-alignDT引入輔助Q函數、RTG擾動與對齊損失,加強RTG與策略行為的一致性。實驗顯示提升RTG可控性並在D4RL上達到競爭表現。理論證明透過順序限制縮小策略類別,並在速度追蹤等任務示範零樣本轉移能力。
SPAR
離線強化學習面臨價值最大化與資料支援衝突。研究提出SPAR,以行為克隆基底搭配殘差修正,在資料一致的局部殘差空間做細緻擬合與局部提升,並以潛在空間自我模仿和保守價值加權控管探索方向。理論與實驗指出可避免價值梯度推動策略偏離資料流形,並顯著提升任務表現。
深度分析
離線到線上長時程任務中,Q-learning因TD引導會使估計誤差沿時間放大。本文提出長時程Q-learning(LQL),以軌跡最優不等式導出鉸鏈懲罰,將長期一致性加回TD損失且不需額外網路。實驗顯示於多個機器人基準上優於1步與多步TD。
深度分析
離線強化學習部署易因資料分布偏移導致危險行為。研究提出SAS:測試時由預訓練transformer想像多條軌跡,依李雅普諾夫條件挑選安全片段回填為提示,無需參數更新即可對齊安全性;實驗顯示可降低成本與失敗率並保持回報。方法將提示視為對潛在高階技能的貝式推理。
深度分析
離線強化學習在部署時常遇到目標變更且策略不可重訓的情況。本研究以Product-of-Experts把已凍結演員與目標先驗精確合成,並證明在對角高斯下等價於一個帶KL正則化的閉式更新。實驗指出PoE/KL-Reg在先驗退化時能溫和退化並維持演員行為,成為一層以演員為錨的安全調整。
深度分析
研究聚焦於離線強化學習在多目標對齊的挑戰,提出平滑切比雪夫標量化方法,開發STOMP演算法,於蛋白質設計任務中超越基線,提升超體積指標。