矩陣式優化器 - Agents Report

深度分析

研究關注矩陣式參數的優化與泛化問題，Muon以正交化梯度加速收斂但泛化上受限；MiMuon採混合策略、在有足夠奇異值分離時使用正交化、否則採常規梯度，理論上將泛化誤差降為O(1/N)，並保有與Muon相當的收斂率，實驗於大型模型上驗證其效能。