vLLM - Agents Report | 代理人報告 (Page 2)

深度分析

「HoloTab」：在瀏覽器中嵌入 Holotron‑12B 多模態模型與 vLLM 推理，實現本地 AI 代理人

HCompany 於 2026 年推出 HoloTab Chrome 擴充功能，結合 Holotron‑12B 多模態模型與混合 SSM+注意力架構，使用者以自然語言描述需求即可在瀏覽器內自動導航、填表與決策，測試顯示單顆 H100 GPU 搭配 vLLM 吞吐量提升逾兩倍，預示 AI 代理人將快速普及。

深度分析

「Delta Weight Sync」降低非同步強化學習帶寬瓶頸：BF16 稀疏差異與 Hub Bucket 實作

為了解決非同步強化學習訓練中每步需傳送完整模型的成本問題，HuggingFace以Delta權重同步技術，只傳送bf16權重的稀疏差異，透過HubBucket以safesensors檔案傳遞。實驗顯示每步上傳從1.2GB降至約30MB，顯著降低帶寬與等待時間，提升訓練與推論彈性。

深度分析

vLLM V1 移轉實務：先修正推論後端再校正強化學習目標

ServiceNow-AI在將推論引擎從vLLM V0升級至V1時，發現logprob計算不一致，導致RL訓練指標偏離。團隊先修正四項後端行為，包括processed_logprobs、執行時預設、即時權重更新與fp32lm_head，最終使指標回到V0水平。

深度分析

GPU 上大型語言模型服務的軟體老化實證研究：vLLM 與 NVIDIA Triton 案例分析

本研究以實驗方式檢驗在 GPU 上持續提供大型語言模型（LLM）服務的軟體是否會隨時間衰退。

gpt_server

gpt_server：支援 vLLM、SGLang 等四大推理引擎的全功能 OpenAI 介面開源框架

gpt_server 以 fastchat 為基礎，提供 OpenAI 規範的 Chat、Embedding、Reranker、ASR、TTS 及 Stable Diffusion 服務，支援多後端加速與模型同端口排程，讓企業能以單一服務點快速部署多模態模型，提升開發與上線效率。

深度分析

從 vLLM V0 到 V1：四項後端校正消除 logprob 差異，提升強化學習訓練一致性

ServiceNow‑AI 在 vLLM 從 V0 升級至 V1 時，發現 rollout token logprob 與訓練端不符，導致 RL 指標偏離。透過調整 processed_logprobs、執行時預設、即時權重更新與 fp32 lm_head，指標恢復與 V0 近似，證明先確保推論正確性再做目標校正更有效。

深度分析

vLLM V1 遷移實務：優先還原 rollout logprobs 與後端行為以恢復訓練一致性

ServiceNow-AI在將rollout推論引擎從vLLM舊版遷移到新版時發現訓練端與推論端的token logprobs存在語義與數值差異。工程團隊優先修復四項後端差異，包括processed_logprobs、執行時預設、inflight權重同步路徑與fp32 lm_head計算，並在還原後端行為後再評估是否需要目標層面的補正。修正後關鍵指標回歸先前軌跡，顯示先保證推論正確性再做目標調整的流程能更清楚分離問題來源。

深度分析

SPEED-Bench 評測框架：在生產級引擎上衡量 Speculative Decoding 吞吐與延遲

研究背景：大型語言模型推論受自回歸解碼瓶頸影響。核心做法：SPEED-Bench以質性與吞吐兩種資料切分並結合生產級推理引擎，衡量猜測性解碼在不同語域、長上下文與並發條件下的效能。主要結果：揭示合成輸入與低多樣性資料會高估加速效果，並提出統一評測基準。

深度分析

Gemma 4 31B 在 TPU 上以 LoRA 微調與 vLLM 部署：效能、成本與工程要點

研究以 Gemma 4 31B 在 TPU 上完成 LoRA 微調與 vLLM 推理為背景，詳述從 PyTorch→JAX 的改寫、Orbax 到 safetensors 的合併流程，以及在 v6e-8 上部署所需的 Docker 設定。結果顯示 TPU 訓練更快、成本更低，並在長上下文推理延遲與吞吐上展現顯著優勢，惟評估品質部分 GPU 仍有領先。

MatrixHub

MatrixHub：自建模型註冊與分發平台，支援 vLLM 與 SGLang 推理加速

開源專案MatrixHub主打自建AI模型註冊庫，為企業推理提供私有替代方案。它以HF相容代理為介面，採用Pull-once,serve-all快取、P2P與NetLoader直接GPU串流，並支援離網交付與多區域非同步複製。此策略可降低部署延遲並提升治理與可用性。

vLLM

vllm-ascend：將 vLLM 推論部署至 Ascend（昇騰）晶片的社群外掛

vllm-ascend 是一個由社群維護的開源專案，為 vLLM 提供 Ascend（昇騰）晶片的硬體外掛與部署文件，採 Apache-2.0 授權。專案在 README 中列出官方文件連結、討論頻道與例行發布資訊（包含近期的 v0.18.0 與 v0.13.0 版本），定位為在 Ascend 平台上擴展 vLLM 推論能力的橋接層。

vLLM V1 fp32 lm_head 校準 logprob 一致模型推理效能提升穩定表現

深度分析

vLLM V0→V1 遷移實務：以 processed_logprobs 與 fp32 lm_head 校準 rollout 一致性

在將 rollout 推論從 vLLM V0 遷移到 V1 時出現 train–inference 的 logprob 失配。工程團隊先修正推理端：使用 processed_logprobs、統一 V1 執行時預設、對齊 inflight 權重更新行為，並採用 fp32 lm_head 做最終投影。修正後訓練度量回到與 V0 相近，顯示先解決推理正確性比直接改目標函數更合理。