throughput-evaluation - Agents Report

深度分析

研究背景：大型語言模型推論受自回歸解碼瓶頸影響。核心做法：SPEED-Bench以質性與吞吐兩種資料切分並結合生產級推理引擎，衡量猜測性解碼在不同語域、長上下文與並發條件下的效能。主要結果：揭示合成輸入與低多樣性資料會高估加速效果，並提出統一評測基準。