深度分析 長時延算術泛化:編碼器先行、解碼器瓶頸的 Transformer 學習機制 研究聚焦於 Transformer 在算術任務中的長時延泛化,發現編碼器快速形成結構但解碼器成為瓶頸。透過模型移植與凍結編碼器實驗,加速泛化並提升至 97.6% 正確率。基底選擇顯著影響學習成效,提供新視角理解 AI 數學推理。