深度分析 MiMuon:以條件正交化改善 Muon 的泛化與收斂折衷 研究關注矩陣式參數的優化與泛化問題,Muon以正交化梯度加速收斂但泛化上受限;MiMuon採混合策略、在有足夠奇異值分離時使用正交化、否則採常規梯度,理論上將泛化誤差降為O(1/N),並保有與Muon相當的收斂率,實驗於大型模型上驗證其效能。