深度分析
WAV v1:多解析度殘差路由在深層解碼器 Transformer 中的效能提升
研究背景:深層解碼器的殘差聚合僅用固定權重。提出WAVv1,於每個區塊加入注意力與MLP差異、前後半部零和細節基底,並以深度路由。實驗在TinyStories與Text8上顯示,12層較差,24層持平,48層驗證損失最佳,優於BlockAttnRes、ReZero與LayerScale。
深度分析
研究背景:深層解碼器的殘差聚合僅用固定權重。提出WAVv1,於每個區塊加入注意力與MLP差異、前後半部零和細節基底,並以深度路由。實驗在TinyStories與Text8上顯示,12層較差,24層持平,48層驗證損失最佳,優於BlockAttnRes、ReZero與LayerScale。
深度分析
隨著Transformer深度提升,傳統PreNorm殘差以固定加權聚合易致訊號稀釋。研究提出WAVv1,於每區塊加入注意力‑MLP相位基與前半‑後半分割基,提升深層模型路由能力。實驗顯示在48層TinyStories與Text8上,驗證損失較BlockAttnRes降低0.0222與0.0057。