深度分析 自適性重要性取樣 (AIS):在 FP8 量化回放與 BF16 訓練間的動態校正 大型語言模型RL採低精度回放以提速,但與高精度訓練產生分布落差導致梯度偏差與不穩定。本文提出自適性重要性取樣(AIS),以權重可靠度、發散嚴重度與方差放大三項診斷動態計算混合係數,在批次層級於未校正與重要性加權梯度間插值,抑制不穩定並保留探索效益;實驗顯示AIS能接近BF16效能,並保有約1.5–2.76×回放加速與近半記憶節省。