Policy Split - Agents Report

深度分析

為提升大型語言模型在強化學習中的多樣性探索，研究提出 Policy Split，將策略拆分為普通與高熵模式，透過雙模式熵正則化協同優化。實驗顯示此方法在多種模型尺寸與創意任務上均優於既有熵基準，顯著提升探索效率與任務正確性。