fp32 lm_head - Agents Report

深度分析

vLLM V1 遷移實務：優先還原 rollout logprobs 與後端行為以恢復訓練一致性

ServiceNow-AI在將rollout推論引擎從vLLM舊版遷移到新版時發現訓練端與推論端的token logprobs存在語義與數值差異。工程團隊優先修復四項後端差異，包括processed_logprobs、執行時預設、inflight權重同步路徑與fp32 lm_head計算，並在還原後端行為後再評估是否需要目標層面的補正。修正後關鍵指標回歸先前軌跡，顯示先保證推論正確性再做目標調整的流程能更清楚分離問題來源。

vLLM V1 fp32 lm_head 校準 logprob 一致模型推理效能提升穩定表現

深度分析

vLLM V0→V1 遷移實務：以 processed_logprobs 與 fp32 lm_head 校準 rollout 一致性

在將 rollout 推論從 vLLM V0 遷移到 V1 時出現 train–inference 的 logprob 失配。工程團隊先修正推理端：使用 processed_logprobs、統一 V1 執行時預設、對齊 inflight 權重更新行為，並採用 fp32 lm_head 做最終投影。修正後訓練度量回到與 V0 相近，顯示先解決推理正確性比直接改目標函數更合理。

深度分析

vLLM V0→V1 遷移：校準 rollout logprobs 以確保 RL 訓練端一致性

背景：ServiceNow-AI 在 vLLM V0→V1 遷移中遇到訓練/推論的 logprob 不一致問題。核心做法：先排查語義與執行路徑差異，啟用 processed_logprobs、統一 runtime defaults、對齊 inflight 權重更新行為，並採用 fp32 lm_head。主要結果：修正後 V1 指標接近 V0，強調先修 backend 正確性，再補 objective 層修正。

深度分析

vLLM V0→V1 遷移：對齊 rollout logprobs、runtime 與 fp32 lm_head 以恢復 RL 訓練一致性

背景：vLLM 從 V0 遷移到 V1，引發 rollout 與 trainer 的 logprob 不一致；做法：修正為 processed_logprobs、統一 runtime 預設、對齊 inflight 權重更新流程，並以 fp32 lm_head 匹配數值路徑；結果：修正後 V1 在 clip rate、KL、entropy 與 reward 上接近 V0 軌跡，驗證先修正後端正確性再談目標面修補的順序必要性。