深度分析 GhostServe:以擦除編碼在主機記憶體保護 KV 快取,提升長上下文 LLM 的容錯與恢復效能 長上下文代理應用讓LLM推論面臨更高故障風險。GhostServe提出在主機記憶體保存擦除編碼奇偶碎片,保護成長中的KV快取並快速重建。實驗顯示故障下檢查點與恢復延遲顯著降低,單批次檢查點延遲可減少至2.7倍、恢復延遲約2.1倍。並改善中位回應延遲約1.2倍。