vllm vLLM:為 LLM 推理打造的高吞吐與記憶體優化引擎 vLLM是一個社群主導的開源專案,聚焦在為大型語言模型(LLM)提供高吞吐且節省記憶體的推論與服務能力。專案以效能優化與資源管理為核心,透過請求排程、記憶體共享與並行策略提升多模型併發效率,並支援在雲端或多租戶環境的部署。