KV 快取 - Agents Report | 代理人報告

深度分析

角色條件分配與 SnapKV：提升 LLM 長上下文 KV 快取效能的技術解析

本研究聚焦長上下文大型語言模型的 KV 快取淘汰，指出 H2O 在結構密集的 JSON、XML 等資料中過度保留分隔符與鍵，導致訊號噪聲比惡化。提出基於 SnapKV 的角色條件分配過濾，抑制 KEY 角色提升答案 Token 的保留率，在 5% 預算下恢復超過 60% 的性能缺口，且在較高預算時可匹配或超越完整快取的準確度。

深度分析

TriRoute：統一注意力、專家路由與 KV 快取位元寬度的條件計算框架

TriRoute 提出一個輕量化的共享控制器，於每層每個 token 同時決定注意力模式、稀疏專家選擇與 KV 快取位元寬度，將傳統的 MoE、MoD 與快取量化分別調校的三條路徑合併為一個全局預算下的協同決策。

深度分析

Hippocampal Linear Attention (HOLA)：結合 KV 快取的線性注意力精準記憶機制

研究針對線性注意力模型記憶遺失問題，提出 Hippocampal Linear Attention（HOLA）將傳統的壓縮狀態與一個有界的精確 KV 快取結合，快取以模型自行計算的驚訝分數作為淘汰依據，並透過 RMSNorm‑γ 讀取以避免軟平均。實驗顯示在 340M 參數、15B 訓練資料下，Wikitext perplexity 從 27.32 降至 22.92，並在 32k 長度的 RULER 針對檢索測試中保持穩定。

深度分析

KV 快取預填 CDN 降低大型語言模型算力 9‑50 倍的技術與商業模式

LLM長文本預填需大量算力，研究提出將KV快取預先計算並以CDN形式販售，讓代理人直接載入省去預填。測試在Qwen3‑4B上，重用KV可降低9‑50倍算力，成本即在第二次讀取即回本；若在供應商端託管，省下傳輸費用，形成以計算為核心的預填CDN商業模式，預計將重塑長上下文AI服務的成本結構。

深度分析

DeepSeek‑V4 的交錯壓縮注意力（CSA/HCA）：將百萬標記長上下文變為可用資源

DeepSeek發表V4，主打可實際應用的百萬標記上下文：以壓縮稀疏與高度壓縮交錯注意力大幅減少KV快取與推論成本，並以DSec沙箱與DSML工具格式強化長時程代理訓練與工具呼叫，提升代理任務穩定性與競爭力。並在多項代理基準展現具競爭力成績

深度分析

Context 架構：寫時上下文、智慧程式庫與主動目標流狀態機

本研究把被動式對話代理改為主動目標導向的Context架構：寫時預組能穩定重用的上下文區塊、可組合受限沙箱程式庫與主動狀態機。論文證明主動代理在多方協作中能削減協調輪次，於不降低成果品質下提升效率並支援跨平台治理一致性。與現行RAG、AutoGen等方案比較，強調寫時一致性與程式庫治理的可證明性。

深度分析

OCTOPUS：八面體參數化與 triplet 聯合量化優化 Transformer KV 快取

長序列自回歸推理（如大型語言模型、因果視訊與語音生成）在每一步都受限於從高頻寬記憶體讀取 KV 快取的頻寬與容量。OCTOPUS 提出把旋轉預處理後的連續座標按三維一組聯合量化：以八面體參數化將單個三維方向映射到平面，再對映射後的兩坐標與該三維向量範數分別以 Lloyd–Max 量化器做非均勻位元分配。

GPUStack

GPUStack：整合 vLLM 與 TensorRT‑LLM 的開源 GPU 叢集管理與推論編排平台

GPUStack是一個開源的GPU叢集管理器，目標是簡化高效能人工智慧模型的部署與推論。它支援跨環境、多叢集管理，並可插拔地整合多種高效能推論引擎（例如 vLLM、SGLang、TensorRT‑LLM），以支援 Day‑0 新模型上線。平台提供預調優模式以滿足低延遲或高吞吐需求，並整合延伸的KV快取系統與推測式解碼選項來縮短首標記時間。

深度分析

GhostServe：以擦除編碼在主機記憶體保護 KV 快取，提升長上下文 LLM 的容錯與恢復效能

長上下文代理應用讓LLM推論面臨更高故障風險。GhostServe提出在主機記憶體保存擦除編碼奇偶碎片，保護成長中的KV快取並快速重建。實驗顯示故障下檢查點與恢復延遲顯著降低，單批次檢查點延遲可減少至2.7倍、恢復延遲約2.1倍。並改善中位回應延遲約1.2倍。

深度分析

LoopGuard：動態 KV 快取介入抑制長上下文注意力迴圈

研究指出長上下文生成易陷入持續重複迴圈，原因是注意力頭鎖定歷史尾端並被 KV 快取放大。作者提出 LoopBench 基準與 LoopGuard 插件，前者量化迴圈嚴重度，後者即時偵測並剪除重複尾段。實驗證明 LoopGuard 能將迴圈發生率降低逾 90%，提升輸出多樣性。

深度分析

持續批次化：提升大型語言模型服務吞吐量的關鍵技術與實作細節

在大型語言模型服務需求激增的背景下，持續批次化透過 KV 快取、分塊預填與不規則批次三項技術，同時處理預填與解碼階段，減少填充浪費並提升 GPU 利用率。此方法使多使用者同時對話的吞吐量大幅提升，預計將改變 AI 服務的資源配置與成本結構。