稀疏自編碼器 - Agents Report | 代理人報告 (Page 2)

深度分析

MedSAE：以稀疏自編碼器解析 MedCLIP 嵌入，提升醫療影像可解釋性

醫療AI需求準確且可解釋的模型。研究把MedCLIP胸腔X光特徵餵入稀疏自編碼器（MedSAE），以稀疏化並拆解疊加表徵以提高語義單一性。作者再用MedGEMMA自動命名與量化對齊，結果顯示MedSAE特徵較原始嵌入更具臨床對應，朝透明且可驗證的醫療表示邁出一步。

KAN-SAE

KAN-SAE：以每維可學習 B-spline 強化稀疏自編碼器以解碼天氣模式

深度學習已顛覆天氣預報，但模型內部表徵多數不透明。研究提出 KAN-SAE，一種把標準 ReLU 換成可學習每維 B-spline 非線性啟動的稀疏自編碼器，使每個潛在維度能發展專屬的閘控曲線以捕捉氣候的非線性行為。

深度分析

ActivationReasoning：在隱含激活空間以稀疏自編碼器與邏輯規則實現可控推理

ActivationReasoning（AR）提出一條將形式化邏輯綁定於語言模型隱含激活的新路徑。先以稀疏自編碼器（SAE）發現可解釋的概念向度，推論時把這些向度映射為命題，再以使用者定義的邏輯規則進行組合與推導。

深度分析

幾何牆：激活流形幾何如何塑造稀疏自編碼器（SAE）跨層寬度—稀疏度縮放律

本研究以「幾何牆」為概念，檢視稀疏自編碼器（SAE）在語言模型各層的重建行為，挑戰單層擬合的通用縮放律假設。

深度分析

稀疏自編碼器（SAE）特徵導向揭示：Llama-3.3-70B 中可分離的反社會機制

本研究針對 Llama-3.3-70B-Instruct，利用稀疏自編碼器（SAE）進行特徵導向（feature steering），放大黑暗三角人格特質（馬基雅維利主義、巨嬌傲與精神病傾向），並以五項心理學工具橫向驗證行為改變。

深度分析

機制可解釋性與識別假設：從 activation patching 到稀疏自編碼器的審計發現

機制可解釋性研究常以因果語彙表述，卻經常未揭露使因果主張成立的識別假設。作者針對多條方法線進行審計，發現普遍以驗證指標替代識別說明，導致因果聲明未被識別。建議在摘要明示因果主張、命名識別策略、列出並檢驗核心假設，並討論假設失效時結論如何調整。

深度分析

Diff‑SAE（差分稀疏自編碼器）在後門分離上勝出 Crosscoders：SmolLM2‑360M 實驗比較

大型語言模型部署擴增，隱藏式後門成為安全挑戰。研究用差分稀疏自編碼器(Diff‑SAE)與Crosscoders比對，透過年字串觸發的SQL注入設計，採差分表示分離後門方向性激活。結果顯示Diff‑SAE在分離後門信號與降低誤報方面明顯優勢，對監控與可解釋性工具有實務啟示。

深度分析

以 Transformer 與稀疏自編碼器從加密網路流量重建長期行為表徵

本研究探索「加密手機網路流量」作為一種被動、跨平台的長期行為感測來源。研究以 WireGuard VPN 取得每小時加密流量指標，使用共享 Transformer 骨幹搭配每用戶 adapter 學習時序行為，接著以稀疏自編碼器（sparse autoencoder）將表示分解為可解讀的行為特徵。

深度分析

Qwen‑Scope：利用稀疏自編碼器實現大型語言模型的即時導向與安全分析

Qwen 團隊近期釋出 Qwen‑Scope，提供一套針對 Qwen3 系列模型訓練的稀疏自編碼器 (SAE) 工具。透過將高維隱層激活分解成稀疏特徵，開發者可以在推論階段直接調整模型行為、在不執行完整評估的情況下分析基準測試、以極少資料建立多語言毒性分類器，甚至在微調與強化學習階段使用特徵訊號抑制語言混雜或重複輸出。

深度分析

從 SAE 特徵到機制圖：多尺度共現與層間轉碼器的內部知識組織

本文報導一套把稀疏自編碼器（SAE）特徵重構為領域專屬知識圖的流程。研究先用對比式多階段過濾從大量特徵中挑出嚴格的領域概念，再用兩種對齊的圖形視圖呈現其結構：一個多尺度的共現圖揭示語料層級的概念分佈，另一個基於轉碼器的機制圖則描繪跨層可讀的因果路徑。

深度分析

Claude Mythos 預覽系統卡：情緒向量與稀疏自編碼器的對齊安全測試

本研究聚焦 Claude Mythos 預覽系統卡，利用情緒向量與稀疏自編碼器特徵分析模型行為。提出兩種假說：情緒向量是功能情緒的因果驅動，或是情境結構的投射。透過在僅報告 SAE 的策略隱蔽情境加入情緒探測，驗證哪個假說成立，影響未來危險行為的情緒監控效能。

深度分析

Safe‑SAIL：稀疏自編碼器在大型語言模型安全特徵的細粒度解釋框架

在大型語言模型安全研究缺乏細粒度特徵解釋的背景下，Safe‑SAIL 透過稀疏自編碼器與前置解釋評估指標，快速挑選安全領域專屬特徵，並以段落層級模擬降低 55% 的解釋成本。最終建構 1,758 項跨四大安全領域的可讀特徵，證實此框架能有效辨識風險特徵並解析模型層級編碼。