強化學習 - Agents Report

深度分析

強化學習在大型語言模型後訓練中常因政策熵快速崩潰受阻。研究比較傳統熵正則化與協方差基礎機制，發現前者帶來持續偏差，後者可在係數退火後達無偏。結果顯示協方差方法在提升模型推理能力上更具潛力。