million-token context - Agents Report

深度分析

DeepSeek‑V4 技術解讀：MoE 架構、混合注意力與百萬代幣上下文

DeepSeek發布DeepSeek‑V4，帶來原生百萬代幣上下文與1.6兆參數的MoE設計。它透過混合注意力、Manifold‑Constrained Hyper‑Connections與新優化器，大幅壓縮KV快取與推理成本，同時以MIT開放權重釋出。結果是多項代理與長上下文任務上接近閉源領先模型，並將高端模型的經濟門檻往下移動。