ReSAE - Agents Report | 代理人報告

深度分析

研究針對大型語言模型殘差流的跨層耦合問題，提出 ReSAE：透過仿射回歸移除前層可線性預測成分，於殘差上訓練稀疏自編碼器，並在重建時以回歸鏈還原至原始激活空間；實驗顯示殘差化雖降低原始變異回復，卻在多層替換時更能還原模型交叉熵並降低解碼器冗餘。