Transformer 在Transformer MLP中放大激活稀疏:平坦性理論、導數稀疏與JSReLU實作 這篇研究從訓練動力學角度出發,將Transformer中MLP模組自發出現的激活稀疏性(activation sparsity)與損失平坦性(flat minima)建立數學連結。