spectral-optimization - Agents Report

深度分析

等變（Equivariant）優化器設計：針對嵌入、語言模型輸出頭、SwiGLU 與 MoE 路由器的層級策略

現行深度學習常用的座標式自適應優化器（如 AdamW 類）將參數視為獨立坐標，忽略矩陣層固有的行列與置換對稱性。本文提出「層級對稱相容」原則，要求優化器更新在該層的對稱群下具可換性，並根據不同參數類別推導出譜類、單側譜、列範數與混合等更新規則，對嵌入矩陣、語言模型輸出頭、SwiGLU MLP 投影與 MoE 路由器給出匹配的優化器。