大型語言模型 - Agents Report

速報

研究指出，檢索增強生成（RAG）讓大型語言模型引用外部知識，同時增加資料庫外洩風險。作者提出LeakDojo，可在可控環境下評估多種外洩攻擊與RAG系統脆弱性。測試涵蓋多款LLM與資料集，發現查詢生成與對抗性指令可獨立促成外洩，且指令遵從性較高的模型外洩風險更高。