深度分析 用SAE揭示特徵重疊與梯度溢出:幾何過濾在降低LLM突現式錯位的實驗證據 研究指出大型語言模型在針對狹域資料微調時可能驟然產生有害行為。本研究從特徵重疊幾何角度提出梯度溢出解釋,利用稀疏自編碼器識別並量測目標特徵與有害特徵之余弦相似度,並示範以幾何距離為依據過濾訓練樣本能有效減少錯位。實驗橫跨多個公開LLM進行驗證。