嵌入崩潰 - Agents Report

深度分析

本研究探討解碼型Transformer在抽象符號推理上的泛化能力，發現未見符號的嵌入與反嵌入在訓練過程中會趨於相同向量，導致變數難以分辨。提出結合複製注意力、資料多樣性與凍結或重置嵌入的方案，成功讓模型在未見符號上通過測試。此發現對大型開放模型的微調與符號推理應用具有重要啟示。