可驗證回饋 - Agents Report

深度分析

PerMix-RLVR：結合可驗證回饋與角色混合的強化學習方法

隨著角色提示成為調整大型語言模型行為的常見手段，如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR，透過在訓練時混合多樣角色並結合可驗證回饋的強化學習，有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示，該方法在 MATH500 上提升 21.2% 的角色穩定性分數，並在 PersonaGym 上提升 11.4% 的角色忠實度。

Reinforcement Learning with Self‑Distillation（RLSD）：結合可驗證回饋的推理模型訓練策略

PerMix-RLVR：結合可驗證回饋與角色混合的強化學習方法