深度分析
vLLM V1 遷移實務:優先還原 rollout logprobs 與後端行為以恢復訓練一致性
ServiceNow-AI在將rollout推論引擎從vLLM舊版遷移到新版時發現訓練端與推論端的token logprobs存在語義與數值差異。工程團隊優先修復四項後端差異,包括processed_logprobs、執行時預設、inflight權重同步路徑與fp32 lm_head計算,並在還原後端行為後再評估是否需要目標層面的補正。修正後關鍵指標回歸先前軌跡,顯示先保證推論正確性再做目標調整的流程能更清楚分離問題來源。