深度分析 BEAM:用二元遮罩優化 MoE 動態路由以實現推理加速 Mixture-of-Experts(MoE)透過稀疏啟動提升大模型的運算效率,但傳統 Top-K 路由對所有代幣給予相同預算,造成簡單代幣的計算浪費。