分層快取 - Agents Report

深度分析

生成式推薦正以長期互動為基礎提升個人化表現。MTServe以分層KV快取把常用狀態留在GPU、將龐大歷史移至主機記憶體，並採用頁-區塊混合佈局、雙緩衝DMA與scatter/gather優化非同步傳輸、以及區域性替換以降低I/O等待。實驗顯示延遲顯著改善並維持高命中率。