LLM2D
基于掩码的成员 inference 攻击针对检索增强生成
Mask-based Membership Inference Attacks for Retrieval-Augmented Generation
作者: Mingrui Liu, Sixiao Zhang, Cheng Long
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2410.20142v2

摘要

arXiv:2410.20142v2 公告类型: replace-cross 摘要:检索增强生成(RAG)通过引入最新的和领域特定的知识,已成为减轻大型语言模型(LLMs)幻觉的有效方法。最近,有一种趋势是在RAG知识数据库中存储最新的或版权保护的数据,而不是将这些数据用于LLM的训练。这一做法引发了关于成员推理攻击(MIAs)的担忧,这些攻击旨在检测特定目标文档是否存储在RAG系统的知识数据库中,从而保护数据提供者的权益。尽管研究集中在增强RAG系统的可信度上,但现有的针对RAG系统的MIAs仍然存在很大不足。现有工作要么仅依赖于RAG系统的判断,要么容易受其他文档或LLM内部知识的影响,这些因素是不可靠且缺乏解释性的。为了解决这些限制,我们提出了一种基于掩码的成员推理攻击(MBA)框架。我们的框架首先采用一个有效的掩码算法,对目标文档中的某些单词进行掩码。掩码后的文本随后被用作对RAG系统的提示,且要求RAG系统预测掩码值。如果目标文档出现在知识数据库中,掩码后的文本将检索到完整的目标文档作为上下文,从而可以实现准确的掩码预测。最后,我们采用一种简单且有效的阈值方法,通过分析掩码预测的准确性来推断目标文档的成员身份。基于掩码的方法更具文档针对性,使RAG系统的生成结果更少受到其他文档或LLM内部知识的干扰。广泛实验证明了我们的方法在与现有基线模型相比时的有效性。