深度分析 凍結演員部署調整:PoE(Product-of-Experts)與 KL 正則化的解析與等價性 離線強化學習在部署時常遇到目標變更且策略不可重訓的情況。本研究以Product-of-Experts把已凍結演員與目標先驗精確合成,並證明在對角高斯下等價於一個帶KL正則化的閉式更新。實驗指出PoE/KL-Reg在先驗退化時能溫和退化並維持演員行為,成為一層以演員為錨的安全調整。