深度分析
共訓 INR 的可轉移性分析:在哪裡凍結 SIREN 與 FFMLP 的共享編碼器
探討共訓隱式神經表示哪一層可轉移與其編碼內容。於SIREN與FFMLP上掃描凍結深度,發現最佳凍結點為共享編碼器權重穩定秩最高的層,並用稀疏自編碼器分解隱層激活為原子;SIREN原子具區域性瓦片,FFMLP原子跨圖像追蹤記憶內容,凍結至該層可匹配或優於標準微調。
深度分析
探討共訓隱式神經表示哪一層可轉移與其編碼內容。於SIREN與FFMLP上掃描凍結深度,發現最佳凍結點為共享編碼器權重穩定秩最高的層,並用稀疏自編碼器分解隱層激活為原子;SIREN原子具區域性瓦片,FFMLP原子跨圖像追蹤記憶內容,凍結至該層可匹配或優於標準微調。
深度分析
此研究針對使大型語言模型繞過拒絕機制的 jailbreak 攻擊提出局部、因果且最小化的解釋方法。LOCA 透過逐位元 token 的 activation patching,尋找可逆回拒絕反應的最少干預集合。實驗顯示在 Gemma 與 Llama 上,LOCA 可用較少補丁恢復拒絕並超越既有方法。此方法有助釐清不同 jailbreak 策略對內部概念的依賴,對安全對齊與可解釋性研究具實務價值。