Stream2LLM - Agents Report | 代理人報告

深度分析

大語言模型在檢索上下文時遭遇延遲與多租戶記憶體競爭。Stream2LLM提出兩階段排程與成本感知的預empt選擇，並以最長共同前綴做緩存失效以減少重算，支援追加與更新兩種串流模式。評測指出串流能顯著改善首字延遲，且在記憶體壓力下智慧排程至關重要。