深度分析 WAV v1:多解析度殘差路由在深層解碼器 Transformer 中的效能提升 研究背景:深層解碼器的殘差聚合僅用固定權重。提出WAVv1,於每個區塊加入注意力與MLP差異、前後半部零和細節基底,並以深度路由。實驗在TinyStories與Text8上顯示,12層較差,24層持平,48層驗證損失最佳,優於BlockAttnRes、ReZero與LayerScale。