深度分析 KV 快取壓縮十大技術解析:H2O 代幣淘汰、TurboQuant 與低秩投影比較 隨著大型語言模型的上下文長度與同時使用者數提升,KV 快取成為記憶瓶頸。研究提出 H2O、SnapKV、KIVI、TurboQuant 等十種壓縮手法,分別透過代幣淘汰、量化或低秩投影降低記憶需求。實驗顯示可將快取佔用減少超過 80%,提升批次大小與吞吐量。