TurboQuant - Agents Report | 代理人報告

深度分析

不同資料分布下 TurboQuant 與 SpectralQuant KV 壓縮方案的實驗驗證

在大型Transformer推論中，KV快取記憶體是瓶頸。研究比較資料無關的TurboQuant與資料自適應的SpectralQuant，測試多種量化技術。結果顯示，重尾資料下TurboQuant表現更佳，結構化資料在足夠位元預算時SpectralQuant優於前者。

深度分析

TurboQuant_mse / TurboQuant_prod 對比 EDEN / DRIVE：尺度 S 與殘差量化的 MSE 與無偏性評估

本文釐清近期被媒體放大的 TurboQuant 與早期 DRIVE/EDEN 系列工作的技術關係。作者指出 TurboQuant_mse 其實是把 EDEN 的尺度參數固定為 S=1 的特例；EDEN 同時支援偏誤（biased）與無偏（unbiased）兩種尺度選擇，並各自針對 MSE 最佳化。

深度分析

KV 快取壓縮十大技術解析：H2O 代幣淘汰、TurboQuant 與低秩投影比較

隨著大型語言模型的上下文長度與同時使用者數提升，KV 快取成為記憶瓶頸。研究提出 H2O、SnapKV、KIVI、TurboQuant 等十種壓縮手法，分別透過代幣淘汰、量化或低秩投影降低記憶需求。實驗顯示可將快取佔用減少超過 80%，提升批次大小與吞吐量。

深度分析

比較 RaBitQ 與 TurboQuant：次高斯尾界、變異數保證與實驗可重現性

本報告重新比對向量量化研究中的RaBitQ與TurboQuant，分析方法、理論保證與實驗複現。兩者皆採隨機旋轉與坐標量化，但在碼本設計與誤差上路徑不同：RaBitQ提出次高斯尾界達到最優位階，TurboQuant僅提供變異數界，難以直接轉成同等尾界。實驗下TurboQuant未顯著優於RaBitQ。