深度分析
用 bf16 位元差分與 HF Bucket 的 Delta Weight Sync,降低兆參數模型權重傳輸成本
背景:非同步強化學習每步須把新權重送給推理端,傳輸成為瓶頸。做法:僅編碼bf16權重中實際位元翻轉的元素,產生稀疏safetensors並上傳Hub Bucket,由vLLM拉取並套用。結果:每步傳輸量由GB級降到數十MB級,允許完全分散且無需專用網路的訓練推理部署。
深度分析
背景:非同步強化學習每步須把新權重送給推理端,傳輸成為瓶頸。做法:僅編碼bf16權重中實際位元翻轉的元素,產生稀疏safetensors並上傳Hub Bucket,由vLLM拉取並套用。結果:每步傳輸量由GB級降到數十MB級,允許完全分散且無需專用網路的訓練推理部署。
深度分析
大型語言模型RL採低精度回放以提速,但與高精度訓練產生分布落差導致梯度偏差與不穩定。本文提出自適性重要性取樣(AIS),以權重可靠度、發散嚴重度與方差放大三項診斷動態計算混合係數,在批次層級於未校正與重要性加權梯度間插值,抑制不穩定並保留探索效益;實驗顯示AIS能接近BF16效能,並保有約1.5–2.76×回放加速與近半記憶節省。