深度分析 OCTOPUS:八面體參數化與 triplet 聯合量化優化 Transformer KV 快取 長序列自回歸推理(如大型語言模型、因果視訊與語音生成)在每一步都受限於從高頻寬記憶體讀取 KV 快取的頻寬與容量。OCTOPUS 提出把旋轉預處理後的連續座標按三維一組聯合量化:以八面體參數化將單個三維方向映射到平面,再對映射後的兩坐標與該三維向量範數分別以 Lloyd–Max 量化器做非均勻位元分配。