深度分析 ZAYA1-8B:基於 MoE++ 與 Markovian RSA,在 AMD Instinct MI300 上訓練的高效推理模型 在大型模型競賽之外,矽谷新創 Zyphra 發表 ZAYA1-8B,一款約 8 億參數、760M 活躍參數的混合專家(MoE)推理模型。它以 MoE++ 架構結合壓縮捲積注意力、MLP 路由器與學習殘差縮放,並在預訓練時導入「以推理為先」策略與 Answer-Preserving Trimming。