深度分析
ZAYA1-8B:以 MoE++、Compressed Convolutional Attention 與 Markovian RSA 提升小參數推理效能
Zyphra發表ZAYA1-8B,一款以推理為核心的MoE模型;採用MoE++、壓縮捲積注意力與MLP路由器,並在預訓練導入長CoT與answer-preserving trimming;測試時計算Markovian RSA提升數學與程式推理表現,且在AMD GPU堆疊上完成訓練與部署驗證。
深度分析
Zyphra發表ZAYA1-8B,一款以推理為核心的MoE模型;採用MoE++、壓縮捲積注意力與MLP路由器,並在預訓練導入長CoT與answer-preserving trimming;測試時計算Markovian RSA提升數學與程式推理表現,且在AMD GPU堆疊上完成訓練與部署驗證。
深度分析
在大型模型競賽之外,矽谷新創 Zyphra 發表 ZAYA1-8B,一款約 8 億參數、760M 活躍參數的混合專家(MoE)推理模型。它以 MoE++ 架構結合壓縮捲積注意力、MLP 路由器與學習殘差縮放,並在預訓練時導入「以推理為先」策略與 Answer-Preserving Trimming。