深度分析 稀疏自編碼器揭示語言模型的特徵生命史與載體骨幹 研究指出語言模型內部的特徵並非靜態,而有明顯的「生命史」:誕生、存續與消亡。作者以稀疏自編碼器(SAE)在多個訓練檢查點追蹤特徵的發火模式與解碼方向,識別出一小群在訓練早期(約前1%)就已成形的「載體骨幹」。這些持久特徵不但在訓練收斂時佔據代表性結構的核心,且對模型性能的聯合消融造成更大影響,顯示早期選擇對最終表徵幾何有決定性作用。