稀疏自編碼器 - Agents Report

深度分析

稀疏自編碼器特徵干預的局部化真相：MCG 評估顯示效率優勢依賴基線匹配

在大型語言模型安全控制的研究中，稀疏自編碼器（SAE）特徵干預被認為能以較少的內部擾動改變行為，然而最新的匹配相干門評估顯示，若不將干預層面與密集基線對齊，所謂的效率優勢往往是比較基線不一致的假象；在同層或投射至SAE解碼器範圍的密集干預下，SAE的優勢甚至會逆轉，且在小模型上常出現單一安全判官的虛假越獄訊號。

深度分析

稀疏自編碼器 L0 設定對特徵混合的影響：從玩具模型到 Gemma-2-2b 的深入分析

研究指出稀疏自編碼器的L0參數若設定不當會導致特徵混合，過低會使模型以相關特徵欺騙重建，過高則產生退化解。作者提出透過解碼器投影衡量找出正確L0，實驗顯示在Gemma-2-2b上最佳L0約200-250，提升稀疏探測表現。此發現對未來模型解釋性研究具有指導價值。

速報

TORINO：以可解釋概念重疊進行視覺語言模型的動態代幣縮減

視覺語言模型（VLM）在多任務上表現優異，但大量視覺代幣的計算成本高企。研究者提出 TORINO（Token Reduction via Interpretable concept Overlap），透過稀疏自編碼器（SAE）將視覺代幣映射至可解釋的潛在空間，利用概念激活的重疊程度將語義相近的代幣分組，進而以剪枝或合併方式縮減代幣數量。

深度分析

使用 SAE 進行概念偵測與取代（PER），在擴散模型中實現高效概念刪除與低失真

隨著文字生成圖像模型廣泛部署，如何在不重新訓練的情況下刪除特定概念成為關鍵。研究利用稀疏自編碼器偵測目標物件，改以同層特徵取代而非直接在潛在空間干預。實驗顯示，此檢測式取代大幅降低視覺失真，提升概念刪除效果。在UnlearnCanvas測試中平均表現達95.33%，亦在NSFW過濾中展現優勢。

深度分析

機械式可解釋性與稀疏自編碼器：精準調整大型語言模型人格特質的方法

大型語言模型（LLM）雖能模擬人類的五大人格特質（OCEAN），但傳統的提示工程或微調方式常伴隨效能下降與資源消耗。研究團隊以稀疏自編碼器（SAE）在模型的殘差流中找出與特定人格相關的單義潛在方向，並利用加法向量在隱藏層施加微調。

深度分析

SAERec 結合稀疏自編碼器與大型語言模型的可解釋意圖推薦系統

隨著使用者行為背後意圖成為提升推薦精準度與可解釋性的關鍵，SAERec 以稀疏自編碼器從評論文本中自動抽取細緻意圖，結合雙層檢索與多分支注意力將個人與公共意圖注入序列模型，實驗顯示在四大公開資料集上相較於最佳基線提升 5% 至 11% 且提供人類可理解的解釋。

深度分析

FAC Synthesis：以Feature Activation Coverage與稀疏自編碼器提升LLM後訓練特徵覆蓋

面對後訓資料多樣性瓶頸,本文提出在LLM內部特徵空間衡量多樣性的Feature Activation Coverage(FAC),並以稀疏自編碼器辨識種子資料缺失特徵,再生成合成樣本以填補這些特徵;同時示範跨模型轉移性與潛在資安風險。實驗證明有效提升資料覆蓋與下游表現。

速報

柏拉圖表示假說與線性表示：從訊號、偏差到雜訊看人工智慧表徵對齊

研究檢驗柏拉圖表示假說，分析現代人工智慧表徵來源。採訊號、偏差、雜訊三分框架，並以線性表示假說與稀疏自編碼器抽取物件—屬性線性特徵，比較稀疏與稠密表示的跨模態對齊。結果顯示中心化與正規化能改善模型偏差，資料稀少會提升表示雜訊。有助於解釋不同架構下表示對齊現象。

深度分析

將字典學習與稀疏自編碼器擴展到 Claude 3 Sonnet：大尺度可解釋特徵的訓練與驗證

研究團隊將稀疏自編碼器（Sparse Autoencoders, SAE）擴展到生產級語言模型 Claude 3 Sonnet，嘗試從中分解出可解釋的「特徵向量」。作者以字典學習為基礎，訓練出上千萬級的特徵維度，並用自動化與人工檢驗方法檢視特徵的專一性與對模型行為的因果影響。

深度分析

VS2 與 VS2++：利用稀疏特徵與檢索增強提升 CLIP 零樣本影像分類

在推論端控制視覺基礎模型具挑戰。VS2以top-k稀疏自編碼器抽取可解釋稀疏特徵，推論時放大這些特徵構成steering向量，無需微調或對比資料。VS2++用檢索到的鄰近影像建偽正負群組以選擇性增強差異性特徵。實驗顯示VS2系列可穩定提升零樣本分類準確度。

深度分析

殘差化稀疏自編碼器（ReSAE）解析：降低多層 Transformer 干預中的重複與交互

研究針對大型語言模型殘差流的跨層耦合問題，提出 ReSAE：透過仿射回歸移除前層可線性預測成分，於殘差上訓練稀疏自編碼器，並在重建時以回歸鏈還原至原始激活空間；實驗顯示殘差化雖降低原始變異回復，卻在多層替換時更能還原模型交叉熵並降低解碼器冗餘。

深度分析

從歸因到介入：在 CLIP 上以 Activation×Gradient 與激活操控實作模型除錯

研究提出一套將歸因分析（SAE-based attribution）與激活操控結合的互動式工作流程，並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。