投機解碼 - Agents Report

深度分析

SpecKV：自適應投機長度γ在量化壓縮 LLM 推理中的工程化實作

大規模語言模型推理成本高，本文提出SpecKV一種在逐步投機解碼中動態選擇投機長度γ的方法，利用草稿模型的信心與熵作為輸入，訓練輕量MLP決策每步γ，能提升每步預期接受代幣數，實驗在多種量化壓縮下顯示顯著改善，結果在基線γ=4上測得56.0%提升且每次決策僅0.34毫秒開銷。

深度分析

NVIDIA EAGLE‑3 投機解碼加速 NeMo RL 生成：8B 模型提升 1.8 倍

研究指出在大型語言模型的強化學習後訓練中，生成階段佔65%以上時間，將投機解碼整合至NeMoRL可將生成速度提升至1.8倍，整體訓練加速1.4倍，並在235B模型上預估達2.5倍。此技術透過草稿模型與目標模型的驗證機制，保證輸出分佈不變，且在異步執行下亦能互補提升效能。

深度分析

SpecBranch：結合混合草稿與回滾感知的投機解碼分支平行化

本研究針對大型語言模型推論的投機解碼瓶頸，提出SpecBranch結合混合草稿與回滾感知分支平行化，實驗顯示相較自回歸解碼提升1.8至4.5倍，回滾代幣減半。此架構同時動態調整草稿長度，結合目標模型特徵再利用，提升資源利用率。有望在實際服務中降低延遲。

深度分析

SPEED‑Bench：統一且多元的投機解碼效能基準

投機解碼是提升大型語言模型推論速度的關鍵技術。SPEED-Bench 以語意多樣的 Qualitative 切分與支援多併發的 Throughput 切分，結合 vLLM 與 TensorRT-LLM 產線引擎，提供更真實的效能測試。實驗顯示合成輸入會高估吞吐量，且草稿長度與批次大小之間存在最佳化關係。

SpecKV：自適應投機長度γ在量化壓縮 LLM 推理中的工程化實作

NVIDIA EAGLE‑3 投機解碼加速 NeMo RL 生成：8B 模型提升 1.8 倍

SpecBranch：結合混合草稿與回滾感知的投機解碼分支平行化

SPEED‑Bench：統一且多元的投機解碼效能基準

NVIDIA EAGLE‑3 投機解碼加速 NeMo RL 生成：8B 模型提升 1.8 倍