譜結構優化 - Agents Report

深度分析

深度学习优化器长期忽视参数矩阵的对称结构，作者提出对称相容原则，为嵌入、LM头、SwiGLU MLP与MoE路由器设计符合其对称性的更新规则，衍生单侧谱、行范数与混合更新，实验显示在多种语言模型上提升验证损失与训练稳定性。相較於傳統AdamW，兼具譜與行範數的混合更新尤為有效。