深度分析 FoMoE:利用專家分割與 skip‑token 實現跨資料中心 MoE 訓練效能提升 隨著大型語言模型規模不斷擴張,傳統全副本訓練在跨資料中心的頻寬與記憶體上受限。FoMoE 透過將 MoE 專家層切分、僅同步所屬專家,降低每輪傳輸量並維持效能。實驗顯示其通信成本比傳統方法縮減逾 1.4 倍,此外,系統在保持路由熵與避免專家崩潰方面亦表現穩定,顯示在大規模部署上具備可擴展性。