DeMuon:去中心化矩陣最佳化新方法突破圖形拓撲限制
本研究針對去中心化矩陣最佳化提出 DeMuon,結合 Newton‑Schulz 正交化與梯度追蹤,能在重尾噪聲下保持迭代效率。理論證明其複雜度與最佳中心化方法相當,實驗顯示於不同圖形拓撲的 transformer 預訓練中,表現優於現有去中心化演算法。
研究背景與動機
在分散式計算環境中,如何在給定的通訊拓撲上有效執行矩陣最佳化是個挑戰。傳統中心化方法雖然效能佳,卻不適用於需要分散協同的情境。
DeMuon 方法概述
DeMuon 繼承了前身 Muon 的 Newton‑Schulz 迭代正交化技術,並加入梯度追蹤機制,以減少本地目標函數之間的異質性。此設計使演算法在重尾噪聲條件下仍能穩定收斂。
理論貢獻
在額外的輕度假設下,研究證明 DeMuon 在達到近似隨機平穩點的迭代複雜度,與已知最佳中心化演算法在容差依賴上相匹配,為首個具可證明複雜度保證的圖形去中心化延伸。
實驗驗證
以去中心化 transformer 預訓練為測試案例,對不同連結度的圖形拓撲執行實驗。結果顯示 DeMuon 在收斂速度與最終精度上,均優於其他常見的去中心化演算法。
結論與未來方向
DeMuon 為去中心化矩陣最佳化提供了理論與實務雙重突破,未來可擴展至更廣泛的分散式機器學習任務。
延伸閱讀
- SPEED-Bench 評測框架:在生產級引擎上衡量 Speculative Decoding 吞吐與延遲
- Isometry Pursuit:從寬矩陣辨識等距嵌入的凸優化法
- 變分式局部距離重建歐氏嵌入:可積性條件下的座標無關表述
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。