online RL - Agents Report | 代理人報告

深度分析

vLLM V0→V1 遷移：校準 rollout logprobs 以確保 RL 訓練端一致性

背景：ServiceNow-AI 在 vLLM V0→V1 遷移中遇到訓練/推論的 logprob 不一致問題。核心做法：先排查語義與執行路徑差異，啟用 processed_logprobs、統一 runtime defaults、對齊 inflight 權重更新行為，並採用 fp32 lm_head。主要結果：修正後 V1 指標接近 V0，強調先修 backend 正確性，再補 objective 層修正。