深度分析 GLU 改寫 NTK 譜:透過條件數降低加速大型模型訓練 本文研究為何門控線性單元(GLU)在大型模型比非門控結構表現更好。透過兩層模型與神經切線核(NTK)分析,作者發現GLU的乘性門控改變NTK譜,使條件數變小且特徵值分布更集中,從而加速優化;但對泛化差距影響有限。實驗涵蓋視覺與語言模型比較,結果支持此結論。