非線性RNN - Agents Report

速報

背景：Transformer在某些任務受限於計算複雜度上限。方法：提出Matrix-to-Matrix RNN（M²RNN），採用矩陣隱藏態與非線性狀態轉移，並透過狀態擴增利用張量核心。結果：在混合架構與長上下文測試上展現更佳泛化與困惑度改善。