Pro‑KLShampoo:結合Kronecker預條件與正交化的LLM預訓練優化器
在LLM預訓練中,作者觀察到KL‑Shampoo的Kronecker預條件呈現少數主導特徵值加上平坦尾部的「spike‑and‑flat」譜結構。提出將一個Kronecker因子限制在可參數化族,於主子空間保留完整頻譜,其餘方向共享單一特徵值並以正交化處理,結果在多個尺度上超越KL‑Shampoo。
要點速報
Pro‑KLShampoo提出一條混合路徑:把KL‑Shampoo的Kronecker預條件與梯度正交化結合,針對預訓練過程中的頻譜結構做參數化約束,從而降低記憶體並加速收斂。
結構性觀察與方法
研究觀察到KL‑Shampoo的Kronecker因子在各層與訓練階段呈現「spike‑and‑flat」的特徵值譜:少數大特徵值之後是近乎均一的尾部。在一個rank‑ρ的訊號加噪聲梯度模型下,此形狀可精確成立。
基於此,作者把KL‑Shampoo的一個Kronecker因子限制到一個參數化族:在被追蹤的r維子空間保留完整頻譜結構;在其餘n−r方向則以單一共享特徵值表示,並對這些方向施以正交化處理。數學上有恆等式顯示,這種正交化能回復完整KL‑Shampoo預條件的代數形式。
實驗結果與意義
作者在四個預訓練尺度(涵蓋GPT‑2與LLaMA的多個模型規模)上比較,Pro‑KLShampoo在驗證損失、每GPU峰值記憶體以及達到各損失水準的實際時間上,於所有測試的子空間階數均優於KL‑Shampoo。這代表在維持或提升訓練效果的同時,可更有效利用記憶體並縮短訓練時間,對大規模模型訓練具實務價值。
延伸閱讀
- ConsDreamer:透過VDM與相似性序關係損失校正T2I先驗於3D Gaussian Splatting的視角偏差
- MetaEarth3D:尺度遞進與幾何—材質分離的世界尺度三維生成框架
- FreqFormer:以頻域感知注意力與頻譜路由優化長序列視訊擴散效能
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。