深度分析 BubbleSpec:在同步強化學習 rollout 中以推測解碼與後綴樹加速長尾 bubble 強化學習在大型語言模型的rollout階段,常因生成長度差異出現長尾bubble導致資源閒置。BubbleSpec利用閒置時間預生成次步回應草稿,並以後綴樹與推測解碼驗證,保證同步且無分布偏差。實驗顯示解碼步數減少約50%,整體rollout吞吐可提升至1.8×。它可從訓練首步即刻加速,且不倚賴跨epoch歷史緩存。