MinMax 迴圈神經級聯(RNC):以 MinMax 代數抗衡梯度消失的遞迴架構
一組研究提出以MinMax代數實現的新型遞迴結構,旨在避免梯度消失與爆炸。該方法用MinMax運算串連多層神經元以形成迴圈級聯,並能並行或序列化評估。理論上涵蓋所有正規語言且狀態與激活量隨輸入長度均有上界。實驗顯示在合成任務上表現優異,並在127M參數的下壓詞預測任務上取得具競爭力結果。
重點速報
研究團隊提出一種以 MinMax 代數為基礎的遞迴架構,稱為 MinMax Recurrent Neural Cascades(MinMax RNCs)。此架構主張能在不遭遇梯度消失或爆炸的情況下,維持高表達力並支援平行評估。
主要發現
作者指出,MinMax RNCs 在形式上能表達所有正規語言,這代表對於有限記憶系統而言具有極高的表達能力。架構既可平行執行(在足夠處理器下,執行時間與輸入長度對數成長),也可序列執行。其狀態與激活值對任意輸入長度皆有統一上界,且在幾乎所有點上損失函數的梯度存在且有界。
特別一點是,MinMax RNCs 不會出現狀態梯度隨時間衰減的問題:某些狀態對過往狀態的梯度可維持常數值一,與時間距離無關。
實驗與意義
實驗上,作者報告在多項合成任務中能達到完美解,並優於文中比較的先進循環網路。另將一個127M參數的 MinMax RNC 用於下壓詞(next-token)預測,結果在同等規模下展現出具競爭力的效能,暗示此方法在實務語言任務上具有應用潛力。
總結來看,MinMax RNCs 在理論保證與初步實驗上都呈現出抗梯度問題與良好可擴展性的特點,值得在更廣泛的實務場景中進一步驗證。
延伸閱讀
- 馮·諾依曼神經元與 VNN:細胞陣列自我構架的神經網路新路徑
- Graph Contrastive Consistency Model (GCCM):用對比與擾動防止一致性訓練退化
- 以解析子(resolvent)與圖論揭露 RNN 的多跳時間路由機制
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。