深度分析 在 Transformer 中以殘差瓶頸 MLP 重塑 Query 投影 研究指出Transformer中Query線性投影存在代數冗餘。本研究以殘差瓶頸MLP引入非線性查詢投影,恆等項作先驗以部分解耦查詢與鍵值流。小型GPT風格實驗顯示在相同參數預算下可降低驗證損失並改善訓練穩定性,促使在更大尺度與跨模態上驗證該方向之價值。