混合注意力 - Agents Report

速報

FLARE 框架：結合混合注意力與擴散式生成的高效大型語言模型轉換

自回歸大型語言模型在實務應用上取得成功，但逐字解碼仍是低延遲部署的瓶頸。近來的效能優化研究分為兩條路徑：透過混合注意力架構降低單次模型呼叫成本，以及利用擴散式語言模型（dLLM）以平行去噪方式減少序列步驟。FLARE 提出一套系統化的轉換框架，將混合注意力 LLM 轉換為同時支援自回歸驗證解碼與擴散平行去噪的模型。

深度分析

DeepSeek‑V4 以混合注意力實現百萬標記上下文的代理人最佳化

DeepSeek於2026年推出V4模型，提供百萬標記上下文窗口，採用壓縮稀疏與重度壓縮注意力混合設計，顯著降低每步運算與KV快取需求。實測在長程代理任務中表現與商業閉源模型相當，預示開源大模型在應用上將更具競爭力。V4‑Pro以27%FLOPs與2%KV快取較提升，支援階段工具呼叫與思考。

深度分析

PrfaaS（Prefill‑as‑a‑Service）：以混合注意力與閾值路由實現跨資料中心 KVCache PD 分離

為突破LLM預填與解碼被綁在同一資料中心的限制，Moonshot AI與清華提出Prefill-as-a-Service（PrfaaS）。PrfaaS把長上下文預填卸載到高效能集群，將產生的KVCache以乙太網回傳本地解碼，並以長度閾值與雙時域排程減緩擁塞；實驗顯示吞吐與延遲皆有顯著改善。