後門攻擊 - Agents Report

深度分析

聯邦學習允許多端共同訓練模型，卻可能被惡意客戶端利用硬體位翻注入後門。研究者提出在單一本地模型參與者上以硬體故障方式執行Chain‑of‑Bit‑Flips攻擊，透過多輪位翻抵消聚合稀釋，最終在ResNet‑18上以僅19次惡意參與與每輪最多10次位翻就達成94%成功率。

速報

研究發現LoRA適配器可透過訓練資料中毒植入後門，維持原本任務表現。攻擊以特定觸發詞為錨，泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑：一是基於probe電池的行為統計量化異常，二是權重層級的標準差指標，兩者對供應鏈掃描具實務應用價值。

深度分析

研究指出視覺語言模型可被不改標籤的乾淨標籤後門滲透；作者以擴散模型在語義重要區域生成具觸發特徵的自然中毒影像，並結合多模態引導與GradCAM遮罩強化隱匿性與轉移性；實驗顯示攻擊成功率逾八成且維持原有功能，隱匿性優於既有方法且具跨模型可轉移性

深度分析

隨著 AI 代理人透過互動資料細部調校提升能力，供應鏈安全漏洞同步浮現。研究提出直接資料中毒、預植後門模型與環境中毒三大威脅模型，並示範僅少量示範即可使代理人以超過 80% 成功率洩漏機密資訊，顯示後門威脅的嚴重性。