深度分析
LOCA:以最小局部因果干預與 SAE activation-patching 解釋 LLM jailbreak 成因
此研究針對使大型語言模型繞過拒絕機制的 jailbreak 攻擊提出局部、因果且最小化的解釋方法。LOCA 透過逐位元 token 的 activation patching,尋找可逆回拒絕反應的最少干預集合。實驗顯示在 Gemma 與 Llama 上,LOCA 可用較少補丁恢復拒絕並超越既有方法。此方法有助釐清不同 jailbreak 策略對內部概念的依賴,對安全對齊與可解釋性研究具實務價值。