字典學習 - Agents Report

深度分析

研究團隊將稀疏自編碼器（Sparse Autoencoders, SAE）擴展到生產級語言模型 Claude 3 Sonnet，嘗試從中分解出可解釋的「特徵向量」。作者以字典學習為基礎，訓練出上千萬級的特徵維度，並用自動化與人工檢驗方法檢視特徵的專一性與對模型行為的因果影響。