速報 TAPER:逐步入場控管緩解 LLM 分支外部性 最新研究觀察到,讓大型語言模型在同一請求中並行展開多條生成分支能提升潛在吞吐,但既有服務策略要麼貿然放行造成共享解碼步驟延遲膨脹,要麼以固定上限過度保守放棄效能。論文提出 TAPER,一種按步(per-step)的入場控制器,將額外分支視為機會性工作,只有在預測的分支外部性可由當前批次的 slack 預算吸收時才放行。