TAPER:逐步入場控管緩解 LLM 分支外部性
最新研究觀察到,讓大型語言模型在同一請求中並行展開多條生成分支能提升潛在吞吐,但既有服務策略要麼貿然放行造成共享解碼步驟延遲膨脹,要麼以固定上限過度保守放棄效能。論文提出 TAPER,一種按步(per-step)的入場控制器,將額外分支視為機會性工作,只有在預測的分支外部性可由當前批次的 slack 預算吸收時才放行。
要點速報
TAPER提出一種逐步入場的分支放行機制,目標是在不犧牲服務水準的前提下,讓請求內的平行分支成為機會性加速項目而非負擔。
問題脈絡
近來方法讓大型語言模型在單一請求中揭露可並行的生成分支,但既有伺服系統通常採取兩種極端策略:積極放行所有分支或根據固定上限保守限制。前者會放大共享解碼步驟的延遲,後者又放棄了分支帶來的潛在吞吐。
核心作法
論文定義「分支外部性」為被放行分支對共享解碼步驟造成的額外延遲負擔。TAPER 在每一步做入場決策,把額外分支當作機會性工作,只在預測的外部性可被該批次當前的 slack 預算吸收時才放行。由於分支共用請求的前綴 KV,擴增或收縮寬度不需要回收記憶體,讓逐步控管在實務上可行。
實驗與影響
在 Qwen3-32B 的實驗中,TAPER 在 goodput 上分別比 IRP-Off 和 IRP-Eager 高出 1.77× 與 1.48×,且仍維持超過 95% 的 SLO 達成率。該機制示範了細緻入場控管如何在變動的批次組成與上下文長度下,平衡機會性工作與服務穩定性。
延伸閱讀
- SAGA:以工作流為單位的 GPU 叢集排程,結合 AEG 與 WA-LRU 優化代理延遲與資源
- SiriusHelper:以 LLM、分層知識庫與 DeepSearch 實作大數據平台運維助理
- Praxis:以結構化服務依賴圖(SDG)與hammock-block PDG驅動的雲端程式與設定根因分析
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。