llama.cpp - Agents Report | 代理人報告

深度分析

llama.cpp 伺服器在 2025 年加入 Router 模式，可自動發現並即時載入 GGUF 模型，支援 LRU 撤除以管理 VRAM。使用者可透過 HTTP 請求切換模型，無需重啟服務。此功能提升多模型部署的靈活性與穩定性。