深度分析
Cohere Command A+:稀疏 MoE 與 W4A4 近無損量化的企業級開源模型
加拿大實驗室Cohere發布CommandA+並以Apache2.0授權開放權重。模型採稀疏MoE架構,結合W4A4四位元量化與注意力保留,並支援多種低精度格式與大規模多模態上下文。原生引用標記可追溯外部資料來源,強調硬體效率與企業內部部署可行性。
深度分析
加拿大實驗室Cohere發布CommandA+並以Apache2.0授權開放權重。模型採稀疏MoE架構,結合W4A4四位元量化與注意力保留,並支援多種低精度格式與大規模多模態上下文。原生引用標記可追溯外部資料來源,強調硬體效率與企業內部部署可行性。
深度分析
阿里巴巴 Qwen 團隊發布 Qwen3.6-35B-A3B,採用稀疏 MoE 結構,總參數 350 億但推論僅活化 30 億,結合線性注意力與 GQA 減少記憶體負擔。此模型在 SWE‑bench Verified 與 Terminal‑Bench 2.0 等基準取得領先成績,同時支援影像與影片理解,顯示出高效能與多模態能力。