離線強化學習 - Agents Report

速報

對稱式 BRPO 強化學習新方法：解決離線策略偏移問題

本論文提出對稱式行為正則化策略最佳化（Symmetric BRPO）方法，旨在解決離線強化學習中的分布偏移問題。研究團隊引入 Pearson-Vajda 散度的無限級數來表示任意 f-散度，並透過有限級數近似實現對稱式 BRPO 的封閉式最優策略表達、數值穩定的最佳化代理函數，以及近似品質的緊緻上界。

深度分析

AET 框架與 AETDICE 演算法：離線非線性多目標強化學習的統一解法

多目標強化學習面臨非線性偏好挑戰，研究提出AET框架統一SER與ESR並開發離線算法AETDICE，成功在靜態資料集上優化多種非線性目標，展示出策略差異與未來應用潛力。此方法利用DICE式密度比估計在增廣狀態空間中進行樣本優化，突破以往無法同時處理兩層非線性之限制，為未來公平與風險敏感的AI決策提供新工具。

深度分析

神經符號結合 LTLf 與 DFA：提升離線 Transformer 強化學習的安全與規範遵循

離線強化學習在安全關鍵領域常缺乏即時修正機制，研究提出將LTLf公式編譯成確定性有限自動機，透過可微分滿足信號作為正則化，注入至TrajectoryTransformer與DecisionTransformer等自回歸模型。實驗在ColourBomb網格環境驗證，策略在保留競爭性回報的同時，大幅提升安全與達成目標的約束滿足率，展現神經符號結合於離線RL的可行性。

速報

Posterior Hybrid Bayesian Belief（PhyB）提升離線強化學習效能

離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數，提出 Posterior Hybrid Bayesian Belief（PhyB），將期望重新表達為動態模型子集合的凸組合，理論證明近似誤差有界。基於 PhyB，開發出具備單調改進保證的迭代正則化策略優化演算法，直至收斂。

深度分析

Q-align DT：以Q函數對齊RTG以提升Decision Transformer的可控性

離線強化學習常以Return-to-Go作為控制信號。Q-alignDT引入輔助Q函數、RTG擾動與對齊損失，加強RTG與策略行為的一致性。實驗顯示提升RTG可控性並在D4RL上達到競爭表現。理論證明透過順序限制縮小策略類別，並在速度追蹤等任務示範零樣本轉移能力。

SPAR

SPAR：在離線強化學習中以殘差策略維持資料支援並局部改進

離線強化學習面臨價值最大化與資料支援衝突。研究提出SPAR，以行為克隆基底搭配殘差修正，在資料一致的局部殘差空間做細緻擬合與局部提升，並以潛在空間自我模仿和保守價值加權控管探索方向。理論與實驗指出可避免價值梯度推動策略偏離資料流形，並顯著提升任務表現。

深度分析

長時程 Q-learning（LQL）：以軌跡不等式與鉸鏈懲罰抑制 TD 誤差累積

離線到線上長時程任務中，Q-learning因TD引導會使估計誤差沿時間放大。本文提出長時程Q-learning(LQL)，以軌跡最優不等式導出鉸鏈懲罰，將長期一致性加回TD損失且不需額外網路。實驗顯示於多個機器人基準上優於1步與多步TD。

深度分析

SAS：以李雅普諾夫能量函數與 transformer 提示強化離線強化學習的測試時安全

離線強化學習部署易因資料分布偏移導致危險行為。研究提出SAS：測試時由預訓練transformer想像多條軌跡，依李雅普諾夫條件挑選安全片段回填為提示，無需參數更新即可對齊安全性；實驗顯示可降低成本與失敗率並保持回報。方法將提示視為對潛在高階技能的貝式推理。

深度分析

凍結演員部署調整：PoE（Product-of-Experts）與 KL 正則化的解析與等價性

離線強化學習在部署時常遇到目標變更且策略不可重訓的情況。本研究以Product-of-Experts把已凍結演員與目標先驗精確合成，並證明在對角高斯下等價於一個帶KL正則化的閉式更新。實驗指出PoE/KL-Reg在先驗退化時能溫和退化並維持演員行為，成為一層以演員為錨的安全調整。

深度分析

平滑切比雪夫標量化驅動的 STOMP 演算法：離線多目標強化學習在蛋白質優化的突破

研究聚焦於離線強化學習在多目標對齊的挑戰，提出平滑切比雪夫標量化方法，開發STOMP演算法，於蛋白質設計任務中超越基線，提升超體積指標。