深度分析 EMO:以文件邊界驅動的 MoE 模組化訓練方法 AllenAI 推出 EMO,一種在預訓練階段以模組化為一級目標的混合專家(Mixture-of-Experts, MoE)架構。EMO 利用文件邊界作為弱監督,強迫同一文件內的 token 在路由時共享一組專家子集合,促進語義導向的專家群聚。