速報 Posterior Hybrid Bayesian Belief(PhyB)提升離線強化學習效能 離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數,提出 Posterior Hybrid Bayesian Belief(PhyB),將期望重新表達為動態模型子集合的凸組合,理論證明近似誤差有界。基於 PhyB,開發出具備單調改進保證的迭代正則化策略優化演算法,直至收斂。