深度分析 殘差化稀疏自編碼器(ReSAE)解析:降低多層 Transformer 干預中的重複與交互 研究針對大型語言模型殘差流的跨層耦合問題,提出 ReSAE:透過仿射回歸移除前層可線性預測成分,於殘差上訓練稀疏自編碼器,並在重建時以回歸鏈還原至原始激活空間;實驗顯示殘差化雖降低原始變異回復,卻在多層替換時更能還原模型交叉熵並降低解碼器冗餘。