memory-efficiency - Agents Report

vllm

vLLM是一個社群主導的開源專案，聚焦在為大型語言模型（LLM）提供高吞吐且節省記憶體的推論與服務能力。專案以效能優化與資源管理為核心，透過請求排程、記憶體共享與並行策略提升多模型併發效率，並支援在雲端或多租戶環境的部署。