多解析度殘差路由

深度分析

WAV v1：多解析度殘差路由在深層解碼器 Transformer 中的效能提升

研究背景：深層解碼器的殘差聚合僅用固定權重。提出WAVv1，於每個區塊加入注意力與MLP差異、前後半部零和細節基底，並以深度路由。實驗在TinyStories與Text8上顯示，12層較差，24層持平，48層驗證損失最佳，優於BlockAttnRes、ReZero與LayerScale。

深度分析

WAV v1：多解析度殘差路由在深層 Decoder‑Only Transformer 中提升訓練效能

隨著Transformer深度提升，傳統PreNorm殘差以固定加權聚合易致訊號稀釋。研究提出WAVv1，於每區塊加入注意力‑MLP相位基與前半‑後半分割基，提升深層模型路由能力。實驗顯示在48層TinyStories與Text8上，驗證損失較BlockAttnRes降低0.0222與0.0057。