深度分析 llama.cpp Router 模式:動態模型管理與即時切換指南 llama.cpp 伺服器在 2025 年加入 Router 模式,可自動發現並即時載入 GGUF 模型,支援 LRU 撤除以管理 VRAM。使用者可透過 HTTP 請求切換模型,無需重啟服務。此功能提升多模型部署的靈活性與穩定性。