深度分析 Muon²:自適應二階動量預調整加速大型基礎模型訓練 Muon 以矩陣正交化優化大型模型,但需多次 Newton‑Schulz 迭代造成負擔。Muon² 先做 Adam‑式二階動量預調整,改善條件數,加速極化收斂。實驗顯示在 60M‑1.3B 參數模型上,收斂速度提升且 NS 迭代減少 40%。