深度分析 Stable‑SPAM:結合AdaClip與AdaGN提升4位元(FP4/INT4)訓練穩定性 隨著大型語言模型往低位元精度訓練移轉,4位元訓練顯示出較高的學習率敏感度與梯度不穩定性。Stable‑SPAM引入自適應尖峰裁剪、整體梯度範數正規化與動量重置,針對突發梯度和整體梯度放大做出調整。在實驗中,4位元模型以Stable‑SPAM訓練能優於BF16+Adam或在相同精度下達到更少訓練步數。