delta-weight-sync - Agents Report

深度分析

背景：非同步強化學習每步須把新權重送給推理端，傳輸成為瓶頸。做法：僅編碼bf16權重中實際位元翻轉的元素，產生稀疏safetensors並上傳Hub Bucket，由vLLM拉取並套用。結果：每步傳輸量由GB級降到數十MB級，允許完全分散且無需專用網路的訓練推理部署。