EMO

深度分析

研究背景：大型語言模型常以巨型單體方式訓練與部署。核心做法：EMO在預訓練以文件邊界為弱監督，限制同文檔token在共享專家池內路由；同時採用全局負載平衡與隨機文件池大小以避免崩塌。主要影響：小比例專家即可保留接近整體效能，有助降低部署記憶體成本。

深度分析

AllenAI 推出 EMO，一種在預訓練階段以模組化為一級目標的混合專家（Mixture-of-Experts, MoE）架構。EMO 利用文件邊界作為弱監督，強迫同一文件內的 token 在路由時共享一組專家子集合，促進語義導向的專家群聚。