Pythia - Agents Report | 代理人報告

深度分析

稀疏自編碼器揭示語言模型的特徵生命史與載體骨幹

研究指出語言模型內部的特徵並非靜態，而有明顯的「生命史」：誕生、存續與消亡。作者以稀疏自編碼器（SAE）在多個訓練檢查點追蹤特徵的發火模式與解碼方向，識別出一小群在訓練早期（約前1%）就已成形的「載體骨幹」。這些持久特徵不但在訓練收斂時佔據代表性結構的核心，且對模型性能的聯合消融造成更大影響，顯示早期選擇對最終表徵幾何有決定性作用。