深度分析
FAC Synthesis:以Feature Activation Coverage與稀疏自編碼器提升LLM後訓練特徵覆蓋
面對後訓資料多樣性瓶頸,本文提出在LLM內部特徵空間衡量多樣性的Feature Activation Coverage(FAC),並以稀疏自編碼器辨識種子資料缺失特徵,再生成合成樣本以填補這些特徵;同時示範跨模型轉移性與潛在資安風險。實驗證明有效提升資料覆蓋與下游表現。
深度分析
面對後訓資料多樣性瓶頸,本文提出在LLM內部特徵空間衡量多樣性的Feature Activation Coverage(FAC),並以稀疏自編碼器辨識種子資料缺失特徵,再生成合成樣本以填補這些特徵;同時示範跨模型轉移性與潛在資安風險。實驗證明有效提升資料覆蓋與下游表現。
速報
研究檢驗柏拉圖表示假說,分析現代人工智慧表徵來源。採訊號、偏差、雜訊三分框架,並以線性表示假說與稀疏自編碼器抽取物件—屬性線性特徵,比較稀疏與稠密表示的跨模態對齊。結果顯示中心化與正規化能改善模型偏差,資料稀少會提升表示雜訊。有助於解釋不同架構下表示對齊現象。
深度分析
研究團隊將稀疏自編碼器(Sparse Autoencoders, SAE)擴展到生產級語言模型 Claude 3 Sonnet,嘗試從中分解出可解釋的「特徵向量」。作者以字典學習為基礎,訓練出上千萬級的特徵維度,並用自動化與人工檢驗方法檢視特徵的專一性與對模型行為的因果影響。
深度分析
在推論端控制視覺基礎模型具挑戰。VS2以top-k稀疏自編碼器抽取可解釋稀疏特徵,推論時放大這些特徵構成steering向量,無需微調或對比資料。VS2++用檢索到的鄰近影像建偽正負群組以選擇性增強差異性特徵。實驗顯示VS2系列可穩定提升零樣本分類準確度。
深度分析
研究針對大型語言模型殘差流的跨層耦合問題,提出 ReSAE:透過仿射回歸移除前層可線性預測成分,於殘差上訓練稀疏自編碼器,並在重建時以回歸鏈還原至原始激活空間;實驗顯示殘差化雖降低原始變異回復,卻在多層替換時更能還原模型交叉熵並降低解碼器冗餘。
深度分析
研究提出一套將歸因分析(SAE-based attribution)與激活操控結合的互動式工作流程,並以 SemanticLens 網頁工具針對 CLIP 模型進行個案層級除錯實驗。
深度分析
醫療AI需求準確且可解釋的模型。研究把MedCLIP胸腔X光特徵餵入稀疏自編碼器(MedSAE),以稀疏化並拆解疊加表徵以提高語義單一性。作者再用MedGEMMA自動命名與量化對齊,結果顯示MedSAE特徵較原始嵌入更具臨床對應,朝透明且可驗證的醫療表示邁出一步。
KAN-SAE
深度學習已顛覆天氣預報,但模型內部表徵多數不透明。研究提出 KAN-SAE,一種把標準 ReLU 換成可學習每維 B-spline 非線性啟動的稀疏自編碼器,使每個潛在維度能發展專屬的閘控曲線以捕捉氣候的非線性行為。
深度分析
ActivationReasoning(AR)提出一條將形式化邏輯綁定於語言模型隱含激活的新路徑。先以稀疏自編碼器(SAE)發現可解釋的概念向度,推論時把這些向度映射為命題,再以使用者定義的邏輯規則進行組合與推導。
深度分析
本研究以「幾何牆」為概念,檢視稀疏自編碼器(SAE)在語言模型各層的重建行為,挑戰單層擬合的通用縮放律假設。
深度分析
本研究針對 Llama-3.3-70B-Instruct,利用稀疏自編碼器(SAE)進行特徵導向(feature steering),放大黑暗三角人格特質(馬基雅維利主義、巨嬌傲與精神病傾向),並以五項心理學工具橫向驗證行為改變。
深度分析
機制可解釋性研究常以因果語彙表述,卻經常未揭露使因果主張成立的識別假設。作者針對多條方法線進行審計,發現普遍以驗證指標替代識別說明,導致因果聲明未被識別。建議在摘要明示因果主張、命名識別策略、列出並檢驗核心假設,並討論假設失效時結論如何調整。