深度分析
生成模型 reward‑tilted 分布的偏差來源:有限粒子 Doob h 近似與模式內/跨模式問題
在生成模型中,利用獎勵指導將樣本傾斜至高獎勵分布,但實務上常出現reward hacking。研究指出此問題源於有限粒子Plug‑in估計Doob h函數的近似,並提出封閉式獎勵衰減排程與best‑of‑n抽樣可緩解偏差,實驗在高斯混合、棋盤與FLUX.1文字到影像生成上驗證有效。
深度分析
在生成模型中,利用獎勵指導將樣本傾斜至高獎勵分布,但實務上常出現reward hacking。研究指出此問題源於有限粒子Plug‑in估計Doob h函數的近似,並提出封閉式獎勵衰減排程與best‑of‑n抽樣可緩解偏差,實驗在高斯混合、棋盤與FLUX.1文字到影像生成上驗證有效。
深度分析
隨著可驗證獎勵強化學習(RLVR)以程式化檢驗取代人工標記,驗證器錯誤可能成為高獎勵的漏洞。研究以輕量驗證器模糊測試產生對抗樣本,發現數學、JSON以及程式單元測試的驗證器均出現大量偽陽性。嚴格驗證器可顯著降低錯誤接受率,顯示事前測試驗證器可靠性的重要性。