LLM 部署

vLLM

vllm-ascend：將 vLLM 推論部署至 Ascend（昇騰）晶片的社群外掛

vllm-ascend 是一個由社群維護的開源專案，為 vLLM 提供 Ascend（昇騰）晶片的硬體外掛與部署文件，採 Apache-2.0 授權。專案在 README 中列出官方文件連結、討論頻道與例行發布資訊（包含近期的 v0.18.0 與 v0.13.0 版本），定位為在 Ascend 平台上擴展 vLLM 推論能力的橋接層。

深度分析

llama.cpp Router 模式：動態模型管理與即時切換指南

llama.cpp 伺服器在 2025 年加入 Router 模式，可自動發現並即時載入 GGUF 模型，支援 LRU 撤除以管理 VRAM。使用者可透過 HTTP 請求切換模型，無需重啟服務。此功能提升多模型部署的靈活性與穩定性。