深度分析 MTServe:分層 KV 快取與延遲遮蔽,解決生成式推薦的 GPU 記憶體瓶頸 生成式推薦正以長期互動為基礎提升個人化表現。MTServe以分層KV快取把常用狀態留在GPU、將龐大歷史移至主機記憶體,並採用頁-區塊混合佈局、雙緩衝DMA與scatter/gather優化非同步傳輸、以及區域性替換以降低I/O等待。實驗顯示延遲顯著改善並維持高命中率。