Mixture-of-Experts (MoE++) - Agents Report

深度分析

ZAYA1-8B：基於 MoE++ 與 Markovian RSA，在 AMD Instinct MI300 上訓練的高效推理模型

在大型模型競賽之外，矽谷新創 Zyphra 發表 ZAYA1-8B，一款約 8 億參數、760M 活躍參數的混合專家（MoE）推理模型。它以 MoE++ 架構結合壓縮捲積注意力、MLP 路由器與學習殘差縮放，並在預訓練時導入「以推理為先」策略與 Answer-Preserving Trimming。