稀疏自編碼器 (SAE) - Agents Report

深度分析

LOCA：以最小局部因果干預與 SAE activation-patching 解釋 LLM jailbreak 成因

此研究針對使大型語言模型繞過拒絕機制的 jailbreak 攻擊提出局部、因果且最小化的解釋方法。LOCA 透過逐位元 token 的 activation patching，尋找可逆回拒絕反應的最少干預集合。實驗顯示在 Gemma 與 Llama 上，LOCA 可用較少補丁恢復拒絕並超越既有方法。此方法有助釐清不同 jailbreak 策略對內部概念的依賴，對安全對齊與可解釋性研究具實務價值。

共訓 INR 的可轉移性分析：在哪裡凍結 SIREN 與 FFMLP 的共享編碼器

LOCA：以最小局部因果干預與 SAE activation-patching 解釋 LLM jailbreak 成因