深度分析 Policy Split:雙模式熵正則化提升大型語言模型正確性與探索性 為提升大型語言模型在強化學習中的多樣性探索,研究提出 Policy Split,將策略拆分為普通與高熵模式,透過雙模式熵正則化協同優化。實驗顯示此方法在多種模型尺寸與創意任務上均優於既有熵基準,顯著提升探索效率與任務正確性。