模型預取 - Agents Report

深度分析

網易遊戲在生產環境面對LLM推理冷啟動問題。團隊採用Kubernetes原生的Fluid方案進行模型預取、共用快取與資料感知調度，將資料抽象化並支援多執行環境與側車注入。實測顯示模型載入時間顯著下降，讓彈性推理在實務上可行，並降低成本與資源重複浪費。