LLM 推論延遲 - Agents Report

深度分析

多模態大型語言模型已在多平台部署，視覺前處理與編碼大幅提升延遲與記憶體需求。研究提出RPS‑Serve，將請求分為岩石（影片）、礫石（圖片）與沙子（文字），以資源感知排程優先處理沙子，並加入老化防止飢餓。實驗顯示，平均首字元時間縮短54%，對延遲敏感請求更減少78.5%。