深度神經網路塑性喪失與Hessian頻譜崩潰:持續學習新突破
本研究探討深度神經網路在持續學習情境下為何會失去塑性,導致無法在不重新初始化參數的情況下學習新任務。作者發現,新任務初始化時會出現Hessian頻譜崩潰,意味著有意義的曲率方向消失,梯度下降失效。
背景說明
持續學習要求模型在不遺忘舊任務的同時,仍能有效吸收新任務的知識。許多深度神經網路在面對新任務時,需要重新初始化參數,顯示出塑性喪失的問題。
核心發現
研究發現,塑性喪失前會出現Hessian頻譜崩潰,即在新任務初始化時,有意義的曲率方向消失,使得梯度下降變得無效。透過對線性化ReLU網路的分析,作者推導出ε‑rank條件,說明何時訓練能成功。
理論連結
作者證明,損失加權的Gram矩陣在譜上等價於廣義Gauss‑Newton近似,將神經張量核(NTK)動力學與Hessian曲率直接關聯。
對策與正則化
針對頻譜崩潰,研究討論了Hessian的Kronecker分解近似,進一步提出兩項正則化策略:1. 維持高有效特徵秩;2. 加入L2懲罰。
實驗驗證
在多項持續監督與強化學習任務上,結合上述兩項正則化後,模型顯著保留了對新任務的塑性,避免了重新初始化的需求。
延伸閱讀
- 柏拉圖表示假說與線性表示:從訊號、偏差到雜訊看人工智慧表徵對齊
- VaCoAl:以 LFSR 與伽羅瓦域實現確定性超維記憶與 CR2 多跳衰減模型
- WorldDB:以遞歸向量圖譜與內容可尋址結構建構長期代理記憶引擎
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。