深度分析 Diffused Reward 與 DRP:為一步生成器建立軌跡級 RLHF 對齊 近年一步式文字到影像合成走向實時化但偏離人類偏好。Didr將RLHF的報酬傾斜分佈沿擴散軌跡傳播,導出跨噪音層的Diffused Reward Score並以可微短步去噪的Diffused Reward Proxy估算。實驗顯示在一階SDXL與大尺度DiT骨幹上,Didr在偏好與FID的權衡上領先既有一階方法。