DeepSeek 發布 V4 大語言模型,參數突破 1.6 兆創新高
DeepSeek 推出兩款 V4 大語言模型,採 mixture‑of‑experts 架構支援百萬 token。V4 Pro 參數達 1.6 兆,成最大開源模型;Flash 參數較少。新模型在推理基準上接近領先商業模型,程式碼表現與 GPT‑5.4 相當,知識測試稍遜。
DeepSeek 於本週釋出兩個 V4 系列的預覽模型,分別是 V4 Flash 與 V4 Pro,皆採用 mixture‑of‑experts(MoE)技術,單次對話可容納高達 100 萬 token 的上下文,足以處理大型程式碼或長篇文件。
模型規模與效能
V4 Pro 內含 1.6 兆參數,活躍參數約 490 億,成為目前最大的開放權重模型,超越 Moonshot AI 的 Kimi K 2.6(1.1 兆)與 MiniMax 的 M1(4560 億),亦是 DeepSeek V3.2(6710 億)的兩倍以上。較小的 V4 Flash 則配備 2840 億參數(活躍 130 億)。
DeepSeek 表示,得益於架構改進,兩款模型在推理基準上較 V3.2 更高效,與目前領先的開源與商業模型差距已大幅縮小。
基準測試與競爭力
在推理測試中,V4‑Pro‑Max 超越同類開源模型,且在部分任務上優於 OpenAI 的 GPT‑5.2 與 Gemini 3.0 Pro。程式碼競賽基準顯示,兩款 V4 模型的表現與 GPT‑5.4 相當。
不過在知識測驗方面,仍稍遜於 OpenAI 的 GPT‑5.4 與 Google 最新的 Gemini 3.1 Pro,DeepSeek 估計與最前沿模型的差距約為 3 至 6 個月。
功能限制
與多數封閉模型不同,V4 Flash 與 V4 Pro 目前僅支援文字輸入,未提供音訊、影像或影片的理解與生成能力。
延伸閱讀
- MiMo‑V2.5‑Pro 與 MiMo‑V2.5:代理式 AI 與原生多模態的實務進展
- Kimi K2.6 — 結合 MoonViT、Mixture-of-Experts 與 Agent Swarm 的長航程代理方案
- 循環深度變壓器 (RDT) 在 OpenMythos 的實作、訓練與推論策略
原始來源:TechCrunch
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。