模型供應鏈 - Agents Report

速報

研究發現LoRA適配器可透過訓練資料中毒植入後門，維持原本任務表現。攻擊以特定觸發詞為錨，泛化屬於詞元層級而非結構化引文。作者提出兩條檢測途徑：一是基於probe電池的行為統計量化異常，二是權重層級的標準差指標，兩者對供應鏈掃描具實務應用價值。