有限粒子 - Agents Report

深度分析

在生成模型中，利用獎勵指導將樣本傾斜至高獎勵分布，但實務上常出現reward hacking。研究指出此問題源於有限粒子Plug‑in估計Doob h函數的近似，並提出封閉式獎勵衰減排程與best‑of‑n抽樣可緩解偏差，實驗在高斯混合、棋盤與FLUX.1文字到影像生成上驗證有效。