深度分析 「True‑Minus‑Random」分析:RLVR 獎勵設計與自洽引導之偏差分解 研究指出,RLVR中常用的Δnaive=acc(True)-acc(Random)估計混合了自洽引導與真實獎勵訊號,導致偏差。透過四條件分解與模擬,發現弱先驗模型需重視獎勵設計,而強先驗模型則主要受自洽影響。此結果對未來大型語言模型的對齊策略有重要啟示。