深度分析 ELMoE-3D:混合鍵合硬體與Elastic-SD協同,緩解MoE本地推論記憶體瓶頸 本文報導ELMoE-3D,一套為本地(on-premises)Mixture-of-Experts(MoE)服務量身訂做的HW–SW協同方案。研究指出MoE在逐詞專家激活下會把稀疏計算轉成密集的記憶體激活,造成頻寬瓶頸。