AdamW - Agents Report | 代理人報告

深度分析

Muon 優化器在矩陣分解任務中的表現評估：與 AdamW、GD 的比較

近期有研究提出Muon優化器透過近似正交化重塑梯度光譜，聲稱在大型語言模型上超越AdamW。本文以低階矩陣分解作為測試平台，系統比較多種超參數設定，發現Muon在大多數情況下未能持續優於AdamW，僅在非負矩陣分解上顯示少許優勢。此結果提醒需在受控測試中驗證新優化器的實際效益。

速報

PACE：優化語言模型迭代平均的輕量控制器

許多大型語言模型在訓練結束後會使用指數移動平均（EMA）作為最終權重，而非最後一次迭代的參數。針對這一慣例，研究者將迭代平均的最佳化問題建模為連續時間隨機二次控制問題，推導出一套在干預成本限制下最小化平均誤差的控制策略。

深度分析

Gefen：自動分塊與動態量化的記憶體節省優化器，將 AdamW 記憶體需求降至 1/8

研究提出記憶體省8倍的Gefen優化器，利用自動分塊共享二階動量與學習式量化一階動量，保持AdamW效能，同時在FSDP與DDP訓練中提升20%以上吞吐量，讓大型模型訓練更具可行性。理論證明高Hessian相關參數的平方梯度相近，算法僅需首輪梯度即可自動分塊，並提供量化碼本程式碼於GitHub開源。

深度分析

「對稱相容」優化原則：提升 AdamW 在嵌入、SwiGLU 與 MoE 層的訓練效能

深度学习优化器长期忽视参数矩阵的对称结构，作者提出对称相容原则，为嵌入、LM头、SwiGLU MLP与MoE路由器设计符合其对称性的更新规则，衍生单侧谱、行范数与混合更新，实验显示在多种语言模型上提升验证损失与训练稳定性。相較於傳統AdamW，兼具譜與行範數的混合更新尤為有效。

深度分析

範數驅動的表徵相變與 grokking：從權重衰減與優化器動力學導出延遲定律

模型先完全記憶訓練集，卻在後續長時間後才突發泛化。本文提出規範分離延遲定律，指出延遲由正則化下從高範數記憶解脫並收縮至低範數結構表示所需時間決定；實驗證實延遲與權重衰減及學習率呈反比，且AdamW與SGD在相同超參數下表現不同。理論對其他具結構低範數解也具預測力。