深度分析
STaR‑KV:時空自適應 KV 快取壓縮提升 GUI 代理人效能與記憶體利用率
圖形使用者介面(GUI)代理人因KV快取隨交互步驟線性增長而受限,STaR‑KV提出時空自適應重新加權,透過子空間互資訊、時間穩定折扣與熵導溫度三軸校準,於四項基準測試中在相同記憶體預算下提升準確度並減少近40%峰值GPU記憶體效能使用。
深度分析
圖形使用者介面(GUI)代理人因KV快取隨交互步驟線性增長而受限,STaR‑KV提出時空自適應重新加權,透過子空間互資訊、時間穩定折扣與熵導溫度三軸校準,於四項基準測試中在相同記憶體預算下提升準確度並減少近40%峰值GPU記憶體效能使用。
深度分析
隨著大型語言模型的上下文長度與同時使用者數提升,KV 快取成為記憶瓶頸。研究提出 H2O、SnapKV、KIVI、TurboQuant 等十種壓縮手法,分別透過代幣淘汰、量化或低秩投影降低記憶需求。實驗顯示可將快取佔用減少超過 80%,提升批次大小與吞吐量。
深度分析
研究比較 Transformer 推論的 KV 快取壓縮方法,發現量化在相同儲存預算下優於秩削減,提升 4‑364 PPL。量化噪聲受限且保留分數排序,避免了 Softmax 注意力路由的離散失敗。結果顯示 INT4 量化在 Mistral 7B 上僅增 0.18 PPL,即可壓縮 75%。