深度分析 Stream2LLM 的兩階段排程與 LCP 快取策略:在多租戶串流檢索下的 GPU 成本優化 大語言模型在檢索上下文時遭遇延遲與多租戶記憶體競爭。Stream2LLM提出兩階段排程與成本感知的預empt選擇,並以最長共同前綴做緩存失效以減少重算,支援追加與更新兩種串流模式。評測指出串流能顯著改善首字延遲,且在記憶體壓力下智慧排程至關重要。