深度分析
SpecKV:自適應投機長度γ在量化壓縮 LLM 推理中的工程化實作
大規模語言模型推理成本高,本文提出SpecKV一種在逐步投機解碼中動態選擇投機長度γ的方法,利用草稿模型的信心與熵作為輸入,訓練輕量MLP決策每步γ,能提升每步預期接受代幣數,實驗在多種量化壓縮下顯示顯著改善,結果在基線γ=4上測得56.0%提升且每次決策僅0.34毫秒開銷。
深度分析
大規模語言模型推理成本高,本文提出SpecKV一種在逐步投機解碼中動態選擇投機長度γ的方法,利用草稿模型的信心與熵作為輸入,訓練輕量MLP決策每步γ,能提升每步預期接受代幣數,實驗在多種量化壓縮下顯示顯著改善,結果在基線γ=4上測得56.0%提升且每次決策僅0.34毫秒開銷。
深度分析
研究指出在大型語言模型的強化學習後訓練中,生成階段佔65%以上時間,將投機解碼整合至NeMoRL可將生成速度提升至1.8倍,整體訓練加速1.4倍,並在235B模型上預估達2.5倍。此技術透過草稿模型與目標模型的驗證機制,保證輸出分佈不變,且在異步執行下亦能互補提升效能。
深度分析
本研究針對大型語言模型推論的投機解碼瓶頸,提出SpecBranch結合混合草稿與回滾感知分支平行化,實驗顯示相較自回歸解碼提升1.8至4.5倍,回滾代幣減半。此架構同時動態調整草稿長度,結合目標模型特徵再利用,提升資源利用率。有望在實際服務中降低延遲。
深度分析
投機解碼是提升大型語言模型推論速度的關鍵技術。SPEED-Bench 以語意多樣的 Qualitative 切分與支援多併發的 Throughput 切分,結合 vLLM 與 TensorRT-LLM 產線引擎,提供更真實的效能測試。實驗顯示合成輸入會高估吞吐量,且草稿長度與批次大小之間存在最佳化關係。