Crosscoders - Agents Report

深度分析

大型語言模型部署擴增，隱藏式後門成為安全挑戰。研究用差分稀疏自編碼器(Diff‑SAE)與Crosscoders比對，透過年字串觸發的SQL注入設計，採差分表示分離後門方向性激活。結果顯示Diff‑SAE在分離後門信號與降低誤報方面明顯優勢，對監控與可解釋性工具有實務啟示。