GPUStack GPUStack:整合 vLLM 與 TensorRT‑LLM 的開源 GPU 叢集管理與推論編排平台 GPUStack是一個開源的GPU叢集管理器,目標是簡化高效能人工智慧模型的部署與推論。它支援跨環境、多叢集管理,並可插拔地整合多種高效能推論引擎(例如 vLLM、SGLang、TensorRT‑LLM),以支援 Day‑0 新模型上線。平台提供預調優模式以滿足低延遲或高吞吐需求,並整合延伸的KV快取系統與推測式解碼選項來縮短首標記時間。