SpecKV - Agents Report | 代理人報告

深度分析

大規模語言模型推理成本高，本文提出SpecKV一種在逐步投機解碼中動態選擇投機長度γ的方法，利用草稿模型的信心與熵作為輸入，訓練輕量MLP決策每步γ，能提升每步預期接受代幣數，實驗在多種量化壓縮下顯示顯著改善，結果在基線γ=4上測得56.0%提升且每次決策僅0.34毫秒開銷。