深度分析 SpecBound:層級溫度退火與自適應推測長度的 LLM 加速技術 隨著大型語言模型自回歸推理成本升高,SpecBound 以層級溫度退火抑制淺層過度自信,並依 token 難度自適應限制推測長度。此框架在保持輸出等價的同時,實現最高 2.33 倍牆時加速,顯示出在長文生成任務中的效能提升。