深度分析
解碼器型 Transformer 在符號推理的嵌入崩潰:複製注意力與嵌入管理的三重解法
本研究探討解碼型Transformer在抽象符號推理上的泛化能力,發現未見符號的嵌入與反嵌入在訓練過程中會趨於相同向量,導致變數難以分辨。提出結合複製注意力、資料多樣性與凍結或重置嵌入的方案,成功讓模型在未見符號上通過測試。此發現對大型開放模型的微調與符號推理應用具有重要啟示。
深度分析
本研究探討解碼型Transformer在抽象符號推理上的泛化能力,發現未見符號的嵌入與反嵌入在訓練過程中會趨於相同向量,導致變數難以分辨。提出結合複製注意力、資料多樣性與凍結或重置嵌入的方案,成功讓模型在未見符號上通過測試。此發現對大型開放模型的微調與符號推理應用具有重要啟示。
深度分析
研究聚焦於將二維線性穩態場的視覺化資訊轉換為可執行的 SymPy 解析式。作者提出 ViSA‑R2,結合自我驗證的解題導向思考鏈,模擬物理學家的推理流程,並發布含 30 種情境的 ViSA‑Bench 基準。實驗顯示在數值精度與結構相似度上,ViSA‑R2 超越現有開源與封閉商業視覺語言模型,提升 AI 在科學推理的應用潛力。