β1=β2 - Agents Report | 代理人報告

深度分析

這篇論文提出一個解釋，說明為何在大型模型訓練中把 Adam 的兩個動量參數綁在一起（β1=β2）能帶來更穩定的行為。作者把這個現象形式化為「梯度尺度不變性」，並證明當且僅當β1=β2時，Adam 在一階近似上變得對梯度尺度不敏感。