LLM2D

摘要

arXiv:2410.20142v2 公告类型: replace-cross 摘要：检索增强生成（RAG）通过引入最新的和领域特定的知识，已成为减轻大型语言模型（LLMs）幻觉的有效方法。最近，有一种趋势是在RAG知识数据库中存储最新的或版权保护的数据，而不是将这些数据用于LLM的训练。这一做法引发了关于成员推理攻击（MIAs）的担忧，这些攻击旨在检测特定目标文档是否存储在RAG系统的知识数据库中，从而保护数据提供者的权益。尽管研究集中在增强RAG系统的可信度上，但现有的针对RAG系统的MIAs仍然存在很大不足。现有工作要么仅依赖于RAG系统的判断，要么容易受其他文档或LLM内部知识的影响，这些因素是不可靠且缺乏解释性的。为了解决这些限制，我们提出了一种基于掩码的成员推理攻击（MBA）框架。我们的框架首先采用一个有效的掩码算法，对目标文档中的某些单词进行掩码。掩码后的文本随后被用作对RAG系统的提示，且要求RAG系统预测掩码值。如果目标文档出现在知识数据库中，掩码后的文本将检索到完整的目标文档作为上下文，从而可以实现准确的掩码预测。最后，我们采用一种简单且有效的阈值方法，通过分析掩码预测的准确性来推断目标文档的成员身份。基于掩码的方法更具文档针对性，使RAG系统的生成结果更少受到其他文档或LLM内部知识的干扰。广泛实验证明了我们的方法在与现有基线模型相比时的有效性。