DeepSeek V4 - Agents Report

深度分析

DeepSeek V4：以 KV-cache 壓縮注意力與 CSA/MLA 重構企業推論成本

DeepSeek宣布將V4Pro永久降價並公開權重，引發企業雲端AI成本重估。核心採用交錯壓縮注意力(CSA與HCA)、多頭潛在注意力(MLA)、FP4量化訓練與mHC，顯著降低KV-cache與HBM需求。結果是高頻代理層成本大幅下探並可能改變供應鏈定價。

深度分析

DeepSeek‑V4：交錯壓縮注意力與低位元 KV 儲存，為代理人實現百萬標記長上下文

DeepSeek 公布 V4 系列，兩個 MoE 檢查點均支援 1M 標記長上下文，設計重心放在代理人（agentic）工作負載的穩定與效率。

大佬動態

DeepSeek 推出 V4 Pro 可在華為 Ascend 運行：架構與生態意義速遞

DeepSeek發布V4系列包含V4Pro(1.6T)與V4Flash(284B)並提供Base與Instruct版本，同時宣稱可在華為Ascend晶片上運行。此舉顯示模型針對非傳統GPU的相容優化與平台多元化，發布後於公開基準上不再位居榜首，但仍可能改變開發者與部署的硬體選擇與策略。

深度分析

DeepSeek‑V4 技術解讀：MoE 架構、混合注意力與百萬代幣上下文

DeepSeek發布DeepSeek‑V4，帶來原生百萬代幣上下文與1.6兆參數的MoE設計。它透過混合注意力、Manifold‑Constrained Hyper‑Connections與新優化器，大幅壓縮KV快取與推理成本，同時以MIT開放權重釋出。結果是多項代理與長上下文任務上接近閉源領先模型，並將高端模型的經濟門檻往下移動。

大佬動態

Simon Willison 報告：DeepSeek 推出 V4 預覽版，兩款 MoE 模型引發關注

SimonWillison發布訊號指出DeepSeek推出V4預覽版，兩款均為MixtureofExperts並支援100萬token上下文；Pro採1.6T總參數且49B啟動，Flash為284B總參數與13B啟動，並以MIT授權釋出；此一發布將擴展開放權重與長上下文實驗的可及性，可能影響研究與部署習慣。

大佬動態

Simon Willison：DeepSeek V4 上線，Flash 與 Pro 雙模齊發

Bluesky 用戶 Simon Willison 發文指出 DeepSeek V4 已釋出，這次同時推出 Flash 與 Pro 兩個型號。Willison 提到兩款在基準測試表現良好，並以價格優勢落在各自類別的低價帶。對台灣科技與開發者生態而言，這代表市場又多出更便宜的高效能選項，可能降低應用門檻並促使更多團隊嘗試不同模型。