深度分析 等變(Equivariant)優化器設計:針對嵌入、語言模型輸出頭、SwiGLU 與 MoE 路由器的層級策略 現行深度學習常用的座標式自適應優化器(如 AdamW 類)將參數視為獨立坐標,忽略矩陣層固有的行列與置換對稱性。本文提出「層級對稱相容」原則,要求優化器更新在該層的對稱群下具可換性,並根據不同參數類別推導出譜類、單側譜、列範數與混合等更新規則,對嵌入矩陣、語言模型輸出頭、SwiGLU MLP 投影與 MoE 路由器給出匹配的優化器。