LOCA - Agents Report | 代理人報告

深度分析

LOCA：以最小局部因果干預與 SAE activation-patching 解釋 LLM jailbreak 成因

此研究針對使大型語言模型繞過拒絕機制的 jailbreak 攻擊提出局部、因果且最小化的解釋方法。LOCA 透過逐位元 token 的 activation patching，尋找可逆回拒絕反應的最少干預集合。實驗顯示在 Gemma 與 Llama 上，LOCA 可用較少補丁恢復拒絕並超越既有方法。此方法有助釐清不同 jailbreak 策略對內部概念的依賴，對安全對齊與可解釋性研究具實務價值。