reward hacking

生成模型獎勵偏差視覺

深度分析

生成模型 reward‑tilted 分布的偏差來源：有限粒子 Doob h 近似與模式內/跨模式問題

在生成模型中，利用獎勵指導將樣本傾斜至高獎勵分布，但實務上常出現reward hacking。研究指出此問題源於有限粒子Plug‑in估計Doob h函數的近似，並提出封閉式獎勵衰減排程與best‑of‑n抽樣可緩解偏差，實驗在高斯混合、棋盤與FLUX.1文字到影像生成上驗證有效。

獎勵驗證器模糊測試安全

深度分析

RLVR 獎勵安全檢測：驗證器模糊測試在數學、JSON 與程式單元測試中的漏洞與對策

隨著可驗證獎勵強化學習(RLVR)以程式化檢驗取代人工標記，驗證器錯誤可能成為高獎勵的漏洞。研究以輕量驗證器模糊測試產生對抗樣本，發現數學、JSON以及程式單元測試的驗證器均出現大量偽陽性。嚴格驗證器可顯著降低錯誤接受率，顯示事前測試驗證器可靠性的重要性。