GEM 家族平滑激活函數:以有理數運算還原 ReLU 性能
深度網路中,啟用函數的光滑性會影響梯度優化與最終效能。這項研究提出一組以對數邏輯累積分布函數作閘、達到 C^{2N} 平滑等級的激活函數家族:基礎 GEM、可透過 ε 調整以任意 L^p 逼近 ReLU 的 E-GEM,以及消除死神經元且在接合處維持 C^{2N} 平滑的 SE-GEM。
要點速覽
作者提出一組平滑激活函數家族,透過對數邏輯累積分布函數(log-logistic CDF)作為閘,達到 C^{2N} 級別的連續可微平滑,並以純有理數運算實作,目標是在保有 ReLU 特性下改善梯度優化。
方法與變體
家族包含三個變體:GEM(基礎)、E-GEM(以 ε 參數化,可近似 ReLU 的不同範式)與 SE-GEM(分段設計以消除死神經元,接合處仍維持 C^{2N} 平滑)。研究同時做了 N 的消融研究,發現對於標準深度卷積網路 N=1 最為合適,而 transformer 類架構傾向 N=2。
實驗與結論
在多個基準上呈現可觀成果:於 CIFAR-100 + ResNet-56 上,N=1 將 GELU 的差距從 6.10% 降到 2.12%;SE-GEM 在 CIFAR-10 + ResNet-56(ε=10^{-4})取得 92.51%,超越 GELU 的 92.44%;在 GPT-2 設定下,GEM 取得較低的困惑度(72.57 對 73.76),而 BERT-small 由 E-GEM(ε=10)取得最佳驗證損失。整體而言,GEM 家族在不同深度與架構間呈現平滑參數帶來的折衷,對於工程上追求平滑化與可解析運算的場景具有實用價值。
延伸閱讀
- InstrAct:動作導向預訓練框架提升教學影片理解
- AI 驅動足球視覺分析:YOLO 與 SAM2 結合同質映射的場上定位系統
- LeanGate:以幾何效用評分提升 Transformer 單眼 SLAM 計算效率
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。