速報
LoRA 適配器後門:詞元層級泛化與可執行的供應鏈偵測
研究發現LoRA適配器可透過訓練資料中毒植入後門,維持原本任務表現。攻擊以特定觸發詞為錨,泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑:一是基於probe電池的行為統計量化異常,二是權重層級的標準差指標,兩者對供應鏈掃描具實務應用價值。
速報
研究發現LoRA適配器可透過訓練資料中毒植入後門,維持原本任務表現。攻擊以特定觸發詞為錨,泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑:一是基於probe電池的行為統計量化異常,二是權重層級的標準差指標,兩者對供應鏈掃描具實務應用價值。
深度分析
研究指出視覺語言模型可被不改標籤的乾淨標籤後門滲透;作者以擴散模型在語義重要區域生成具觸發特徵的自然中毒影像,並結合多模態引導與GradCAM遮罩強化隱匿性與轉移性;實驗顯示攻擊成功率逾八成且維持原有功能,隱匿性優於既有方法且具跨模型可轉移性
深度分析
隨著 AI 代理人透過互動資料細部調校提升能力,供應鏈安全漏洞同步浮現。研究提出直接資料中毒、預植後門模型與環境中毒三大威脅模型,並示範僅少量示範即可使代理人以超過 80% 成功率洩漏機密資訊,顯示後門威脅的嚴重性。