LeakDojo 評估:RAG(檢索增強生成)帶來的資料外洩風險
研究指出,檢索增強生成(RAG)讓大型語言模型引用外部知識,同時增加資料庫外洩風險。作者提出LeakDojo,可在可控環境下評估多種外洩攻擊與RAG系統脆弱性。測試涵蓋多款LLM與資料集,發現查詢生成與對抗性指令可獨立促成外洩,且指令遵從性較高的模型外洩風險更高。
研究速報:LeakDojo 揭露 RAG 外洩風險
一項 ArXiv 研究示警:檢索增強生成(RAG)雖提升大型語言模型存取外部知識的能力,卻會讓檢索庫中的敏感資料面臨外洩風險。
方法與實驗
研究團隊推出 LeakDojo,設計為一套可配置的受控評估框架,用來系統化測試不同攻擊策略對各種 RAG 系統的外洩效果。作者在實驗中橫向比較多種攻擊手法,涵蓋六種既有攻擊、十四款大型語言模型、四組資料集與多種 RAG 組態。
主要發現
研究得到三項可操作的結論:一,查詢生成與對抗性指令會各自獨立促成資料外洩,且整體外洩程度可由兩者的影響大致相乘近似;二,模型的指令遵從能力越強,遭利用以外洩敏感資料的風險越高;三,提升 RAG 的忠實性(faithfulness)在某些情況下也會伴隨更高的外洩風險。研究人員指出,這些發現能協助實務端評估與建構防護策略。
研究同時公開了代碼庫,以便社群驗證實驗結果並延伸防護研究。
延伸閱讀
- LCC-LLM:以程式碼為核心的惡意程式屬性判定與靜態分析框架
- 大型語言模型安全缺口:深層數學重構攻擊在 HarmBench 與 JailbreakBench 的表現
- PIIGuard 頁面級防護:透過隱藏提示片段降低聯絡資訊被重組風險
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。