深度分析 SOAR:自我校正提升擴散模型對齊與精緻度的突破性方法 擴散模型的後訓練常面臨 SFT 與 RL 之間的分布落差。研究者提出 SOAR,以單次停止梯度 rollout 重新加噪偏離狀態,並提供密集逐步監督,使模型自我校正回到乾淨目標。實驗顯示在 SD3.5-Medium 上,GenEval 從 0.70 提升至 0.78,OCR 從 0.64 提升至 0.67,且兼容後續 RL 對齊。