分支平行化 - Agents Report

深度分析

本研究針對大型語言模型推論的投機解碼瓶頸，提出SpecBranch結合混合草稿與回滾感知分支平行化，實驗顯示相較自回歸解碼提升1.8至4.5倍，回滾代幣減半。此架構同時動態調整草稿長度，結合目標模型特徵再利用，提升資源利用率。有望在實際服務中降低延遲。