生成式AI - Agents Report

深度分析

SOAR：自我校正提升擴散模型對齊與精緻度的突破性方法

擴散模型的後訓練常面臨 SFT 與 RL 之間的分布落差。研究者提出 SOAR，以單次停止梯度 rollout 重新加噪偏離狀態，並提供密集逐步監督，使模型自我校正回到乾淨目標。實驗顯示在 SD3.5-Medium 上，GenEval 從 0.70 提升至 0.78，OCR 從 0.64 提升至 0.67，且兼容後續 RL 對齊。