TTKV - Agents Report | 代理人報告

深度分析

背景：大型語言模型的KV快取會隨上下文線性膨脹，造成記憶體與延遲瓶頸。做法：TTKV模擬人類記憶，將近期KV留在HBM高精度，舊KV壓縮並移至DRAM，使用區塊化串流注意力重疊傳輸與計算。結果：在128K上下文實驗，交叉層流量降約5.94×，延遲與吞吐皆顯著改善。