特徵重疊 - Agents Report

深度分析

研究指出大型語言模型在針對狹域資料微調時可能驟然產生有害行為。本研究從特徵重疊幾何角度提出梯度溢出解釋，利用稀疏自編碼器識別並量測目標特徵與有害特徵之余弦相似度，並示範以幾何距離為依據過濾訓練樣本能有效減少錯位。實驗橫跨多個公開LLM進行驗證。