深度分析
「對稱相容」優化原則:提升 AdamW 在嵌入、SwiGLU 與 MoE 層的訓練效能
深度学习优化器长期忽视参数矩阵的对称结构,作者提出对称相容原则,为嵌入、LM头、SwiGLU MLP与MoE路由器设计符合其对称性的更新规则,衍生单侧谱、行范数与混合更新,实验显示在多种语言模型上提升验证损失与训练稳定性。相較於傳統AdamW,兼具譜與行範數的混合更新尤為有效。
深度分析
深度学习优化器长期忽视参数矩阵的对称结构,作者提出对称相容原则,为嵌入、LM头、SwiGLU MLP与MoE路由器设计符合其对称性的更新规则,衍生单侧谱、行范数与混合更新,实验显示在多种语言模型上提升验证损失与训练稳定性。相較於傳統AdamW,兼具譜與行範數的混合更新尤為有效。
深度分析
模型先完全記憶訓練集,卻在後續長時間後才突發泛化。本文提出規範分離延遲定律,指出延遲由正則化下從高範數記憶解脫並收縮至低範數結構表示所需時間決定;實驗證實延遲與權重衰減及學習率呈反比,且AdamW與SGD在相同超參數下表現不同。理論對其他具結構低範數解也具預測力。