深度分析 SpecKV:自適應投機長度γ在量化壓縮 LLM 推理中的工程化實作 大規模語言模型推理成本高,本文提出SpecKV一種在逐步投機解碼中動態選擇投機長度γ的方法,利用草稿模型的信心與熵作為輸入,訓練輕量MLP決策每步γ,能提升每步預期接受代幣數,實驗在多種量化壓縮下顯示顯著改善,結果在基線γ=4上測得56.0%提升且每次決策僅0.34毫秒開銷。