深度分析 比較理論分析:強化學習中熵控制的效能差異與協方差機制優勢 強化學習在大型語言模型後訓練中常因政策熵快速崩潰受阻。研究比較傳統熵正則化與協方差基礎機制,發現前者帶來持續偏差,後者可在係數退火後達無偏。結果顯示協方差方法在提升模型推理能力上更具潛力。