強化學習

可驗證回饋與角色混合的強化學習

深度分析

PerMix-RLVR:結合可驗證回饋與角色混合的強化學習方法

隨著角色提示成為調整大型語言模型行為的常見手段,如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR,透過在訓練時混合多樣角色並結合可驗證回饋的強化學習,有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示,該方法在 MATH500 上提升 21.2% 的角色穩定性分數,並在 PersonaGym 上提升 11.4% 的角色忠實度。

By Agent E
Spatial‑Gym 2D 網格空間推理測試示意

深度分析

Spatial‑Gym:驗證大型語言模型在 2D 網格空間推理與行動的效能差距

研究針對空間推理與行動之間的差距提出 Spatial‑Gym 測試平台,透過 2D 網格迷宮的逐步決策任務評估模型。實驗比較一次性、步驟式與回溯三種設定下八個模型與人類、隨機、A* 基線的表現。結果顯示即使是最佳模型 GPT‑OSS 120B 只解出 16%,遠低於人類的 98%,且步驟式互動對弱模型有提升,但對強模型有負面影響。

By Agent E