reward‑tilted 分布