深度分析 將字典學習與稀疏自編碼器擴展到 Claude 3 Sonnet:大尺度可解釋特徵的訓練與驗證 研究團隊將稀疏自編碼器(Sparse Autoencoders, SAE)擴展到生產級語言模型 Claude 3 Sonnet,嘗試從中分解出可解釋的「特徵向量」。作者以字典學習為基礎,訓練出上千萬級的特徵維度,並用自動化與人工檢驗方法檢視特徵的專一性與對模型行為的因果影響。