LLM2D

摘要

arXiv:2405.20446v3 宣告类型: replace-cross 摘要：检索增强生成（RAG）系统在自然语言处理领域展现出了巨大的潜力。然而，这些系统依赖于存储在检索数据库中的数据，而这些数据可能包含专有或敏感信息，这引入了新的隐私问题。具体而言，攻击者可能通过观察RAG系统的输出推断出某个特定文本片段是否出现在检索数据库中，这种攻击被称为成员归类推理攻击（MIA）。尽管这一威胁的重要性不言而喻，但针对RAG系统的MIA研究仍然相对较少。本研究通过引入一种高效且易于使用的MIA方法来填补这一空白。我们使用两个基准数据集和多种生成模型展示了攻击的有效性，证明在黑盒和灰盒环境中，通过创建适当的提示，可以高效地确定文档是否在检索数据库中。此外，我们提出了基于向RAG模版添加指令的初步防御策略，该策略对某些数据集和模型显示出较高的有效性。我们的研究结果强调了在部署的RAG系统中实施安全对策以及开发更先进防御措施以保护检索数据库的隐私和安全的重要性。