深度分析 生成模型 reward‑tilted 分布的偏差來源:有限粒子 Doob h 近似與模式內/跨模式問題 在生成模型中,利用獎勵指導將樣本傾斜至高獎勵分布,但實務上常出現reward hacking。研究指出此問題源於有限粒子Plug‑in估計Doob h函數的近似,並提出封閉式獎勵衰減排程與best‑of‑n抽樣可緩解偏差,實驗在高斯混合、棋盤與FLUX.1文字到影像生成上驗證有效。