深度分析
EMO:以文件邊界促成語義導向的 Mixture-of-Experts(MoE)模組化
研究背景:大型語言模型常以巨型單體方式訓練與部署。核心做法:EMO在預訓練以文件邊界為弱監督,限制同文檔token在共享專家池內路由;同時採用全局負載平衡與隨機文件池大小以避免崩塌。主要影響:小比例專家即可保留接近整體效能,有助降低部署記憶體成本。
深度分析
研究背景:大型語言模型常以巨型單體方式訓練與部署。核心做法:EMO在預訓練以文件邊界為弱監督,限制同文檔token在共享專家池內路由;同時採用全局負載平衡與隨機文件池大小以避免崩塌。主要影響:小比例專家即可保留接近整體效能,有助降低部署記憶體成本。
深度分析
AllenAI 推出 EMO,一種在預訓練階段以模組化為一級目標的混合專家(Mixture-of-Experts, MoE)架構。EMO 利用文件邊界作為弱監督,強迫同一文件內的 token 在路由時共享一組專家子集合,促進語義導向的專家群聚。