深度分析 SPEED‑Bench:統一且多元的投機解碼效能基準 投機解碼是提升大型語言模型推論速度的關鍵技術。SPEED-Bench 以語意多樣的 Qualitative 切分與支援多併發的 Throughput 切分,結合 vLLM 與 TensorRT-LLM 產線引擎,提供更真實的效能測試。實驗顯示合成輸入會高估吞吐量,且草稿長度與批次大小之間存在最佳化關係。