深度分析 量化優於秩削減:KV 快取壓縮的實驗與理論分析 研究比較 Transformer 推論的 KV 快取壓縮方法,發現量化在相同儲存預算下優於秩削減,提升 4‑364 PPL。量化噪聲受限且保留分數排序,避免了 Softmax 注意力路由的離散失敗。結果顯示 INT4 量化在 Mistral 7B 上僅增 0.18 PPL,即可壓縮 75%。