深度分析 Adam β1=β2 的理論與實證:梯度尺度不變性如何提升訓練穩定性 這篇論文提出一個解釋,說明為何在大型模型訓練中把 Adam 的兩個動量參數綁在一起(β1=β2)能帶來更穩定的行為。作者把這個現象形式化為「梯度尺度不變性」,並證明當且僅當β1=β2時,Adam 在一階近似上變得對梯度尺度不敏感。