KV 快取壓縮 - Agents Report

深度分析

從 Query‑Aware 到 Query‑Agnostic：KV 快取壓縮方法的全面審計與排名

本研究針對 KV 快取壓縮在查詢可見性不同下的表現進行配額匹配審計，發現只有 KeyDiff 在查詢無關情境仍優於三種平凡基線；SnapKV 在加入問題後才顯著提升。結果顯示查詢感知分數掺雜了問題相關性，對部署成本與評估可靠性產生影響。此外，審計揭露注意力後端混淆與基準長度依賴等兩項可重現的評估風險。

深度分析

不同資料分布下 TurboQuant 與 SpectralQuant KV 壓縮方案的實驗驗證

在大型Transformer推論中，KV快取記憶體是瓶頸。研究比較資料無關的TurboQuant與資料自適應的SpectralQuant，測試多種量化技術。結果顯示，重尾資料下TurboQuant表現更佳，結構化資料在足夠位元預算時SpectralQuant優於前者。

深度分析

SurfaceLogicKV：基於表面記憶與邏輯建構的雙層 KV 快取自適應壓縮技術

隨著大型語言模型輸入長度持續增長，KV快取記憶體需求急升。研究提出SurfaceLogicKV，透過將注意力行為分為表面記憶與邏輯建構，於層與頭級別動態分配快取預算。實驗顯示在多項長序列任務上，壓縮後的效能與FullKV相當，甚至在部分測試中超越。

深度分析

Kara：滑動視窗 KV 快取壓縮提升大型語言模型推論效能

研究指出推理模型在產生長鏈思考時會使 KV 快取快速膨脹，導致記憶體壓力與解碼延遲。作者提出 Kara 以滑動視窗雙向注意力挑選關鍵 KV，並透過 Token2Chunk 形成彈性區塊。實驗顯示在多項數學推理基準上，記憶體使用下降且吞吐量提升。此技術有望降低模型在雲端部署的成本，並促進開源社群在高效推論上的創新。

深度分析

STaR‑KV：時空自適應 KV 快取壓縮提升 GUI 代理人效能與記憶體利用率

圖形使用者介面（GUI）代理人因KV快取隨交互步驟線性增長而受限，STaR‑KV提出時空自適應重新加權，透過子空間互資訊、時間穩定折扣與熵導溫度三軸校準，於四項基準測試中在相同記憶體預算下提升準確度並減少近40%峰值GPU記憶體效能使用。

深度分析

KV 快取壓縮十大技術解析：H2O 代幣淘汰、TurboQuant 與低秩投影比較

隨著大型語言模型的上下文長度與同時使用者數提升，KV 快取成為記憶瓶頸。研究提出 H2O、SnapKV、KIVI、TurboQuant 等十種壓縮手法，分別透過代幣淘汰、量化或低秩投影降低記憶需求。實驗顯示可將快取佔用減少超過 80%，提升批次大小與吞吐量。

深度分析

量化優於秩削減：KV 快取壓縮的實驗與理論分析

研究比較 Transformer 推論的 KV 快取壓縮方法，發現量化在相同儲存預算下優於秩削減，提升 4‑364 PPL。量化噪聲受限且保留分數排序，避免了 Softmax 注意力路由的離散失敗。結果顯示 INT4 量化在 Mistral 7B 上僅增 0.18 PPL，即可壓縮 75%。