深度分析 在 Nemotron(LoRA 微調)上部署推測解碼:以 EAGLE3 + vLLM 加速商務代理推理 大型語言模型在電商生產環境需在模型判斷力與延遲SLA間取得平衡。本文把訓練好的Nemotron商務小型語言模型與一種無需再訓練的草稿模型推測解碼策略EAGLE3結合,透過vLLM在同一套H100硬體上實驗,重點衡量吞吐、延遲與品質保存。