transformer-architecture - Agents Report

深度分析

研究指出Transformer中Query線性投影存在代數冗餘。本研究以殘差瓶頸MLP引入非線性查詢投影，恆等項作先驗以部分解耦查詢與鍵值流。小型GPT風格實驗顯示在相同參數預算下可降低驗證損失並改善訓練穩定性，促使在更大尺度與跨模態上驗證該方向之價值。