RL

深度分析

從 vLLM V0 到 V1：四項後端校正消除 logprob 差異，提升強化學習訓練一致性

ServiceNow‑AI 在 vLLM 從 V0 升級至 V1 時，發現 rollout token logprob 與訓練端不符，導致 RL 指標偏離。透過調整 processed_logprobs、執行時預設、即時權重更新與 fp32 lm_head，指標恢復與 V0 近似，證明先確保推論正確性再做目標校正更有效。

深度分析

使 SFT 成為良好 RL 初始化：PEAR 的分布校正與 token/區塊/序列重權策略

此研究指出，單純追求監督式微調（SFT）離線成績，未必能帶來線上強化學習（RL）階段的最終提升。