深度分析 TTKV:以時間分層KV快取與區塊化串流注意力優化長上下文LLM推論 背景:大型語言模型的KV快取會隨上下文線性膨脹,造成記憶體與延遲瓶頸。做法:TTKV模擬人類記憶,將近期KV留在HBM高精度,舊KV壓縮並移至DRAM,使用區塊化串流注意力重疊傳輸與計算。結果:在128K上下文實驗,交叉層流量降約5.94×,延遲與吞吐皆顯著改善。