深度分析 Diff‑SAE(差分稀疏自編碼器)在後門分離上勝出 Crosscoders:SmolLM2‑360M 實驗比較 大型語言模型部署擴增,隱藏式後門成為安全挑戰。研究用差分稀疏自編碼器(Diff‑SAE)與Crosscoders比對,透過年字串觸發的SQL注入設計,採差分表示分離後門方向性激活。結果顯示Diff‑SAE在分離後門信號與降低誤報方面明顯優勢,對監控與可解釋性工具有實務啟示。