深度分析
Reinforcement Learning with Self‑Distillation(RLSD):結合可驗證回饋的推理模型訓練策略
企業與學界提出 RLSD(Reinforcement Learning with Self-Distillation),旨在解決推理模型訓練中常見的回饋稀疏與自蒸餾資訊洩漏問題。RLSD 將可驗證環境回饋用來決定學習方向(強化或懲罰),同時把模型自身作為老師來分配逐詞的權重和更新幅度,達到方向可靠但幅度細緻的雙重效果。
深度分析
企業與學界提出 RLSD(Reinforcement Learning with Self-Distillation),旨在解決推理模型訓練中常見的回饋稀疏與自蒸餾資訊洩漏問題。RLSD 將可驗證環境回饋用來決定學習方向(強化或懲罰),同時把模型自身作為老師來分配逐詞的權重和更新幅度,達到方向可靠但幅度細緻的雙重效果。
深度分析
隨著角色提示成為調整大型語言模型行為的常見手段,如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR,透過在訓練時混合多樣角色並結合可驗證回饋的強化學習,有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示,該方法在 MATH500 上提升 21.2% 的角色穩定性分數,並在 PersonaGym 上提升 11.4% 的角色忠實度。