機制可解釋性 - Agents Report

KAN-SAE

深度學習已顛覆天氣預報，但模型內部表徵多數不透明。研究提出 KAN-SAE，一種把標準 ReLU 換成可學習每維 B-spline 非線性啟動的稀疏自編碼器，使每個潛在維度能發展專屬的閘控曲線以捕捉氣候的非線性行為。

深度分析

研究在兩層網路的grokking過程驗證Tian第6項所述的特徵排斥規則，並提出以參數更新的捲動頻譜比作線上偵測。重現模加實驗後發現：二次激活造成特徵集中並形成rank-2鎖定，ReLU則呈rank-1主導；此發現區分了結構性機制與更新頻譜的依賴關係。

深度分析

機制可解釋性研究常以因果語彙表述，卻經常未揭露使因果主張成立的識別假設。作者針對多條方法線進行審計，發現普遍以驗證指標替代識別說明，導致因果聲明未被識別。建議在摘要明示因果主張、命名識別策略、列出並檢驗核心假設，並討論假設失效時結論如何調整。

深度分析

研究背景：機制可解釋性需將模型行為對應至內部組件。核心技術：Weight Patching 於同架構模型間替換特定權重，並以向量錨點介面驗證任務相關控制狀態。結果顯示此法能層級化定位功能來源，並提升模型融合效能。