SPEED‑Bench - Agents Report

深度分析

SPEED‑Bench：統一且多元的投機解碼效能基準

投機解碼是提升大型語言模型推論速度的關鍵技術。SPEED-Bench 以語意多樣的 Qualitative 切分與支援多併發的 Throughput 切分，結合 vLLM 與 TensorRT-LLM 產線引擎，提供更真實的效能測試。實驗顯示合成輸入會高估吞吐量，且草稿長度與批次大小之間存在最佳化關係。