去噪遞迴模型(DRM) - Agents Report

深度分析

為提升迭代精修模型在複雜推理題的學習，研究提出去噪遞迴模型。該方法先以前向腐蝕產生受損目標，再訓練模型於多步遞迴中逐步去噪，介於單步擲回與完整反向訓練之間。實驗顯示在ARC-AGI上優於既有遞迴基線並提升穩定性。同時比較狀態擾動變體SPRM，資料充足時不如DRM；整體提升少量資料下表現。