深度分析
NFD 與 depth-μP:揭示深度 ResNet 中梯度獨立化與特徵學習崩塌機制
本文從縮放律與訓練穩定性的矛盾出發,針對深度ResNet在深度尺度上為何失效提出新的理論視角。研究在聯合無限寬與無限深極限,為前向與反向通道導出一組耦合隨機微分方程,稱為「神經特徵動力學」(NFD)。NFD說明在1/√depth殘差縮放下,會出現使前向與反向動態獨立的消失機制,從而再次使梯度獨立假設(GIA)在極限成立;
深度分析
本文從縮放律與訓練穩定性的矛盾出發,針對深度ResNet在深度尺度上為何失效提出新的理論視角。研究在聯合無限寬與無限深極限,為前向與反向通道導出一組耦合隨機微分方程,稱為「神經特徵動力學」(NFD)。NFD說明在1/√depth殘差縮放下,會出現使前向與反向動態獨立的消失機制,從而再次使梯度獨立假設(GIA)在極限成立;
深度分析
本研究在受控條件下比較VGG、ResNet與GoogLeNet的卷積深度效應。以名義深度與有效深度區分,評估準確率、收斂行為與計算成本。結果指出有效深度而非名義深度決定性能,殘差與Inception結構能把深度轉化為實際收益。這說明設計能縮短有效通道比單純增加層數更關鍵。