Posterior Hybrid Bayesian Belief(PhyB)提升離線強化學習效能
離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數,提出 Posterior Hybrid Bayesian Belief(PhyB),將期望重新表達為動態模型子集合的凸組合,理論證明近似誤差有界。基於 PhyB,開發出具備單調改進保證的迭代正則化策略優化演算法,直至收斂。
背景與挑戰
離線強化學習旨在利用事先收集的資料集優化策略,但受限於樣本覆蓋與有限資料所帶來的認知不確定性,導致模型動態的推斷不穩定。
貝葉斯視角的統一量化
為了同時量化樣本層級與模型層級的不確定性,研究者將動態模型視為隨機變數,並維持相應的信念分布,形成貝葉斯強化學習框架。然而,直接在此框架下求解策略仍需計算複雜的期望,計算成本高昂。
PhyB 方法概述
研究提出 Posterior Hybrid Bayesian Belief(PhyB),將期望重新寫成對一組動態模型的凸組合。此近似將原本的複合目標拆解為可管理的子問題,理論分析證明近似誤差保持有界。
演算法與收斂保證
基於 PhyB,開發出一套迭代正則化的策略優化演算法,該演算法在不依賴特定度量的情況下,保證策略的單調改進直至收斂。
實驗結果
在多項離線強化學習基準測試上,PhyB 的表現超越現有最先進方法,證實其在計算效率與策略品質上具備顯著優勢。
延伸閱讀
- MemTier:在 OpenClaw 外掛下以分層記憶、PPO 檢索權重緩解 BM25 檢索瓶頸
- Mask2Cause:以逆向變數嵌入與可微分鄰接遮罩優化 Transformer 因果學習
- PLOT:以最佳傳輸定位神經網路中的因果變數
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。