深度分析 SAGA:以工作流為單位的 GPU 叢集排程,結合 AEG 與 WA-LRU 優化代理延遲與資源 AI 代理從單次推論轉向多步工作流,SAGA 將整個代理程式當作可排程單元,透過 Agent Execution Graph、會話親和批次與 Agent Fair Share 等機制,提升 KV cache 重用與 GPU 利用率,顯著降低端到端延遲並改變叢集調度策略。