M²RNN:以矩陣隱藏態重啟非線性 RNN,強化長上下文與大型語言模型效能
背景:Transformer在某些任務受限於計算複雜度上限。方法:提出Matrix-to-Matrix RNN(M²RNN),採用矩陣隱藏態與非線性狀態轉移,並透過狀態擴增利用張量核心。結果:在混合架構與長上下文測試上展現更佳泛化與困惑度改善。
要點速報
研究指出,Transformer雖擅長大規模平行計算,但受限於TC0類型的表達能力,對於實體追蹤或程式碼執行等任務存在天生瓶頸。作者因而重新檢驗非線性RNN,提出Matrix-to-Matrix RNN(M²RNN),以矩陣型隱藏狀態與更強的非線性狀態轉移來提升表示力。
方法與發現
M²RNN透過擴展狀態尺寸與專用的狀態擴張機制,能高效利用張量核心運算。實驗發現,非線性RNN的語言模型表現受限於狀態容量,而M²RNN在未見序列長度上能達成完美狀態追蹤泛化。將遞迴層與注意力交錯的混合架構應用於大型模型時,Hybrid M²RNN在7B MoE模型上比等值的Gated DeltaNet提升約0.4–0.5 perplexity,且遞迴層狀態尺寸僅為對手的三分之一。
影響與意義
替換模型中的單一遞迴層為M²RNN即可帶來明顯準確度提升且對訓練吞吐影響有限。另一方面,含單層M²RNN的混合模型在長上下文泛化(LongBench)上也取得最多約8點的領先。整體來看,研究支持非線性RNN層作為高效且可擴充語言模型的有力元件。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。