強化學習 - Agents Report

vLLM V1 fp32 lm_head 校準 logprob 一致模型推理效能提升穩定表現

深度分析

vLLM V0→V1 遷移實務：以 processed_logprobs 與 fp32 lm_head 校準 rollout 一致性

在將 rollout 推論從 vLLM V0 遷移到 V1 時出現 train–inference 的 logprob 失配。工程團隊先修正推理端：使用 processed_logprobs、統一 V1 執行時預設、對齊 inflight 權重更新行為，並採用 fp32 lm_head 做最終投影。修正後訓練度量回到與 V0 相近，顯示先解決推理正確性比直接改目標函數更合理。