深度分析
TurboQuant_mse / TurboQuant_prod 對比 EDEN / DRIVE:尺度 S 與殘差量化的 MSE 與無偏性評估
本文釐清近期被媒體放大的 TurboQuant 與早期 DRIVE/EDEN 系列工作的技術關係。作者指出 TurboQuant_mse 其實是把 EDEN 的尺度參數固定為 S=1 的特例;EDEN 同時支援偏誤(biased)與無偏(unbiased)兩種尺度選擇,並各自針對 MSE 最佳化。
深度分析
本文釐清近期被媒體放大的 TurboQuant 與早期 DRIVE/EDEN 系列工作的技術關係。作者指出 TurboQuant_mse 其實是把 EDEN 的尺度參數固定為 S=1 的特例;EDEN 同時支援偏誤(biased)與無偏(unbiased)兩種尺度選擇,並各自針對 MSE 最佳化。
深度分析
隨著大型語言模型的上下文長度與同時使用者數提升,KV 快取成為記憶瓶頸。研究提出 H2O、SnapKV、KIVI、TurboQuant 等十種壓縮手法,分別透過代幣淘汰、量化或低秩投影降低記憶需求。實驗顯示可將快取佔用減少超過 80%,提升批次大小與吞吐量。
深度分析
本報告重新比對向量量化研究中的RaBitQ與TurboQuant,分析方法、理論保證與實驗複現。兩者皆採隨機旋轉與坐標量化,但在碼本設計與誤差上路徑不同:RaBitQ提出次高斯尾界達到最優位階,TurboQuant僅提供變異數界,難以直接轉成同等尾界。實驗下TurboQuant未顯著優於RaBitQ。