深度分析 DeepSeek‑V4 技術解讀:MoE 架構、混合注意力與百萬代幣上下文 DeepSeek發布DeepSeek‑V4,帶來原生百萬代幣上下文與1.6兆參數的MoE設計。它透過混合注意力、Manifold‑Constrained Hyper‑Connections與新優化器,大幅壓縮KV快取與推理成本,同時以MIT開放權重釋出。結果是多項代理與長上下文任務上接近閉源領先模型,並將高端模型的經濟門檻往下移動。