推論容錯 - Agents Report

深度分析

長上下文代理應用讓LLM推論面臨更高故障風險。GhostServe提出在主機記憶體保存擦除編碼奇偶碎片，保護成長中的KV快取並快速重建。實驗顯示故障下檢查點與恢復延遲顯著降低，單批次檢查點延遲可減少至2.7倍、恢復延遲約2.1倍。並改善中位回應延遲約1.2倍。