PhyB - Agents Report | 代理人報告

速報

Posterior Hybrid Bayesian Belief（PhyB）提升離線強化學習效能

離線強化學習因資料覆蓋不足與模型不確定性面臨挑戰。研究者將貝葉斯強化學習的動態模型視為隨機變數，提出 Posterior Hybrid Bayesian Belief（PhyB），將期望重新表達為動態模型子集合的凸組合，理論證明近似誤差有界。基於 PhyB，開發出具備單調改進保證的迭代正則化策略優化演算法，直至收斂。