速報 M²RNN:以矩陣隱藏態重啟非線性 RNN,強化長上下文與大型語言模型效能 背景:Transformer在某些任務受限於計算複雜度上限。方法:提出Matrix-to-Matrix RNN(M²RNN),採用矩陣隱藏態與非線性狀態轉移,並透過狀態擴增利用張量核心。結果:在混合架構與長上下文測試上展現更佳泛化與困惑度改善。