深度分析 SPEED-Bench 評測框架:在生產級引擎上衡量 Speculative Decoding 吞吐與延遲 研究背景:大型語言模型推論受自回歸解碼瓶頸影響。核心做法:SPEED-Bench以質性與吞吐兩種資料切分並結合生產級推理引擎,衡量猜測性解碼在不同語域、長上下文與並發條件下的效能。主要結果:揭示合成輸入與低多樣性資料會高估加速效果,並提出統一評測基準。