深度分析 使用 Fluid 在 Kubernetes 上降低 LLM 冷啟動:網易的分散式快取與預取實作 網易遊戲在生產環境面對LLM推理冷啟動問題。團隊採用Kubernetes原生的Fluid方案進行模型預取、共用快取與資料感知調度,將資料抽象化並支援多執行環境與側車注入。實測顯示模型載入時間顯著下降,讓彈性推理在實務上可行,並降低成本與資源重複浪費。