fp8 - Agents Report | 代理人報告

深度分析

自適性重要性取樣 (AIS)：在 FP8 量化回放與 BF16 訓練間的動態校正

大型語言模型RL採低精度回放以提速，但與高精度訓練產生分布落差導致梯度偏差與不穩定。本文提出自適性重要性取樣(AIS)，以權重可靠度、發散嚴重度與方差放大三項診斷動態計算混合係數，在批次層級於未校正與重要性加權梯度間插值，抑制不穩定並保留探索效益；實驗顯示AIS能接近BF16效能，並保有約1.5–2.76×回放加速與近半記憶節省。