Stable‑SPAM - Agents Report

深度分析

Stable‑SPAM：結合AdaClip與AdaGN提升4位元（FP4/INT4）訓練穩定性

隨著大型語言模型往低位元精度訓練移轉，4位元訓練顯示出較高的學習率敏感度與梯度不穩定性。Stable‑SPAM引入自適應尖峰裁剪、整體梯度範數正規化與動量重置，針對突發梯度和整體梯度放大做出調整。在實驗中，4位元模型以Stable‑SPAM訓練能優於BF16+Adam或在相同精度下達到更少訓練步數。