runtime 預設 - Agents Report

深度分析

vLLM V0→V1 遷移：對齊 rollout logprobs、runtime 與 fp32 lm_head 以恢復 RL 訓練一致性

背景：vLLM 從 V0 遷移到 V1，引發 rollout 與 trainer 的 logprob 不一致；做法：修正為 processed_logprobs、統一 runtime 預設、對齊 inflight 權重更新流程，並以 fp32 lm_head 匹配數值路徑；結果：修正後 V1 在 clip rate、KL、entropy 與 reward 上接近 V0 軌跡，驗證先修正後端正確性再談目標面修補的順序必要性。