深度分析 解碼器型 Transformer 在符號推理的嵌入崩潰:複製注意力與嵌入管理的三重解法 本研究探討解碼型Transformer在抽象符號推理上的泛化能力,發現未見符號的嵌入與反嵌入在訓練過程中會趨於相同向量,導致變數難以分辨。提出結合複製注意力、資料多樣性與凍結或重置嵌入的方案,成功讓模型在未見符號上通過測試。此發現對大型開放模型的微調與符號推理應用具有重要啟示。