強化學習對齊 - Agents Report

深度分析

研究指出，RLVR中常用的Δnaive=acc(True)-acc(Random)估計混合了自洽引導與真實獎勵訊號，導致偏差。透過四條件分解與模擬，發現弱先驗模型需重視獎勵設計，而強先驗模型則主要受自洽影響。此結果對未來大型語言模型的對齊策略有重要啟示。