LoRA 適配器後門:詞元層級泛化與可執行的供應鏈偵測
研究發現LoRA適配器可透過訓練資料中毒植入後門,維持原本任務表現。攻擊以特定觸發詞為錨,泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑:一是基於probe電池的行為統計量化異常,二是權重層級的標準差指標,兩者對供應鏈掃描具實務應用價值。
重點速報
研究揭示 LoRA 適配器可以在微調供應鏈被訓練資料中毒,成功植入後門而不破壞原有任務表現。此後門的泛化發生在詞元層級,而非單純的結構化模式。
攻擊特性與實驗觀察
作者以多個基礎模型、不同 LoRA rank 與觸發字串進行測試,觀察到以某一 RFC 引文為訓練觸發器時,模型會在任何 RFC 引文上被喚起,但同樣結構的 ISO、OWASP、CWE 或 NIST 引文則不會啟動後門。這種非對稱性對攻擊者有利,因為防守方難以以一般化結構探針全面檢測。
檢測方法與定位
兩條互補的檢測路徑能有效分辨中毒與乾淨適配器。一是行為層級的探針電池,使用統計量如 outlier_gap 與 mean_attack_rate,只要探針覆蓋觸發詞附近或不完全重疊,仍能高召回並避免誤報;二是權重層級的量測,透過跨模組的維度正規化 Frobenius 範數標準差來區分,無需執行模型即可分群。因果修補(causal patching)則將後門定位到中後層的 MLP 區塊,單一投影 down_proj 被認定為最強的單位因果來源。
實務意義
對供應鏈掃描而言,行為檢測展示出較佳的可攜性,可在不同基礎模型與 rank 間轉移而無需重校準;權重檢測雖準確但依賴與基礎模型的校準。整體來看,本研究提供可操作的偵測工具組,並指出 LoRA 適配器在微調供應鏈中存在需被正視的威脅向量。
延伸閱讀
- 自我對弈中動作移除攻擊:Adversarial Action Masking 對多智能體強化學習的影響與 CAC 衡量
- Alice:把失敗更新轉為結構訊號,精煉可執行世界模型應對先驗失準
- 以大型語言模型驅動的自治系統辨識代理(ASIA)設計與實驗
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。