深度分析 去噪遞迴模型(DRM)與短窗多步訓練:提升遞迴變壓器的穩定性與推論一致性 為提升迭代精修模型在複雜推理題的學習,研究提出去噪遞迴模型。該方法先以前向腐蝕產生受損目標,再訓練模型於多步遞迴中逐步去噪,介於單步擲回與完整反向訓練之間。實驗顯示在ARC-AGI上優於既有遞迴基線並提升穩定性。同時比較狀態擾動變體SPRM,資料充足時不如DRM;整體提升少量資料下表現。