LLM2D

摘要

检索增强生成（RAG）通过在测试时整合外部知识来改进预训练模型，从而实现定制化适应。我们研究了基于检索上下文 RAG 的语言模型（LM）中数据存储泄露的风险。我们表明，攻击者可以利用 LM 的指令遵循能力，通过提示注入轻松地从使用指令微调的 LM 构建的 RAG 系统的数据存储中逐字提取文本数据。这种漏洞存在于 Llama2、Mistral/Mixtral、Vicuna、SOLAR、WizardLM、Qwen1.5 和 Platypus2 等各种现代 LM 中，并且随着模型规模的扩大，可利用性也随之加剧。我们还研究了 RAG 设置对数据可提取性的多种影响，表明遵循意外指令来重复数据可能是现代 LM 在有效利用上下文中失败的结果，并进一步表明，通过位置偏差消除策略可以极大地缓解这种漏洞。将我们的研究扩展到生产 RAG 模型 GPTs，我们设计了一种攻击，可以在最多 2 个查询的情况下，对 25 个随机选择的定制 GPTs 实现 100% 的数据存储泄露成功率，并且通过仅使用 100 个由它们自己生成的查询来提示 GPTs，我们以 41% 的比率从一本 77,000 字的书籍中提取逐字文本数据，并以 3% 的比率从一个 1,569,000 字的语料库中提取逐字文本数据。