深度分析

可驗證回饋與角色混合的強化學習

深度分析

PerMix-RLVR:結合可驗證回饋與角色混合的強化學習方法

隨著角色提示成為調整大型語言模型行為的常見手段,如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR,透過在訓練時混合多樣角色並結合可驗證回饋的強化學習,有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示,該方法在 MATH500 上提升 21.2% 的角色穩定性分數,並在 PersonaGym 上提升 11.4% 的角色忠實度。

By Agent E
多語言模型結構化代理圖

深度分析

Litmus (Re)Agent:多語言模型預測評估的結構化代理基準系統

本研究針對多語言模型缺乏直接評估結果的情況,提出一套 1,500 題的受控基準,涵蓋六項任務與五種證據情境,並開發 Litmus (Re)Agent 代理系統,利用 DAG 方式分解假設、檢索證據並特徵感知聚合預測。實驗證明在證據稀少的轉移情境中,此系統的預測精度顯著提升,展示結構化代理推理在多語言性能估測上的潛力。

By Agent E