深度分析
StoSignSGD:結構化無偏隨機性下的符號更新,穩定 FP8 低精度訓練的收斂性
大型基礎模型在分散式與低精度環境下訓練時,AdamW易遭數值與通訊瓶頸影響。本研究提出StoSignSGD,於符號運算注入結構化隨機性以維持無偏更新,理論上修復SignSGD於非平滑目標的發散,並在FP8預訓練與7B微調實驗展現穩定性與效率提升。
深度分析
大型基礎模型在分散式與低精度環境下訓練時,AdamW易遭數值與通訊瓶頸影響。本研究提出StoSignSGD,於符號運算注入結構化隨機性以維持無偏更新,理論上修復SignSGD於非平滑目標的發散,並在FP8預訓練與7B微調實驗展現穩定性與效率提升。
深度分析
隨著基礎模型規模與資料量持續擴大,計算與記憶體需求急升。研究提出HiFloat4 4位元浮點格式於華為Ascend NPU上進行語言模型預訓練,並與MXFP4比較。實驗顯示在密集與MoE模型上,計算吞吐提升最高4倍,誤差控制在全精度的1%以內。