NTK（Neural Tangent Kernel） - Agents Report

深度分析

本文研究為何門控線性單元(GLU)在大型模型比非門控結構表現更好。透過兩層模型與神經切線核(NTK)分析，作者發現GLU的乘性門控改變NTK譜，使條件數變小且特徵值分布更集中，從而加速優化；但對泛化差距影響有限。實驗涵蓋視覺與語言模型比較，結果支持此結論。