drp - Agents Report | 代理人報告

深度分析

Diffused Reward 與 DRP：為一步生成器建立軌跡級 RLHF 對齊

近年一步式文字到影像合成走向實時化但偏離人類偏好。Didr將RLHF的報酬傾斜分佈沿擴散軌跡傳播，導出跨噪音層的Diffused Reward Score並以可微短步去噪的Diffused Reward Proxy估算。實驗顯示在一階SDXL與大尺度DiT骨幹上，Didr在偏好與FID的權衡上領先既有一階方法。