摘要
检索增强生成(RAG)通过在测试时整合外部知识来改进预训练模型,从而实现定制化适应。我们研究了基于检索上下文 RAG 的语言模型(LM)中数据存储泄露的风险。我们表明,攻击者可以利用 LM 的指令遵循能力,通过提示注入轻松地从使用指令微调的 LM 构建的 RAG 系统的数据存储中逐字提取文本数据。这种漏洞存在于 Llama2、Mistral/Mixtral、Vicuna、SOLAR、WizardLM、Qwen1.5 和 Platypus2 等各种现代 LM 中,并且随着模型规模的扩大,可利用性也随之加剧。我们还研究了 RAG 设置对数据可提取性的多种影响,表明遵循意外指令来重复数据可能是现代 LM 在有效利用上下文中失败的结果,并进一步表明,通过位置偏差消除策略可以极大地缓解这种漏洞。将我们的研究扩展到生产 RAG 模型 GPTs,我们设计了一种攻击,可以在最多 2 个查询的情况下,对 25 个随机选择的定制 GPTs 实现 100% 的数据存储泄露成功率,并且通过仅使用 100 个由它们自己生成的查询来提示 GPTs,我们以 41% 的比率从一本 77,000 字的书籍中提取逐字文本数据,并以 3% 的比率从一个 1,569,000 字的语料库中提取逐字文本数据。