深度分析
vLLM V0→V1 遷移:校準 rollout logprobs 以確保 RL 訓練端一致性
背景:ServiceNow-AI 在 vLLM V0→V1 遷移中遇到訓練/推論的 logprob 不一致問題。核心做法:先排查語義與執行路徑差異,啟用 processed_logprobs、統一 runtime defaults、對齊 inflight 權重更新行為,並採用 fp32 lm_head。主要結果:修正後 V1 指標接近 V0,強調先修 backend 正確性,再補 objective 層修正。