深度分析 SpecBranch:結合混合草稿與回滾感知的投機解碼分支平行化 本研究針對大型語言模型推論的投機解碼瓶頸,提出SpecBranch結合混合草稿與回滾感知分支平行化,實驗顯示相較自回歸解碼提升1.8至4.5倍,回滾代幣減半。此架構同時動態調整草稿長度,結合目標模型特徵再利用,提升資源利用率。有望在實際服務中降低延遲。