LLM2D
反转谜题!隐蔽的成员推断 for 记忆增强生成
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation
作者: Ali Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00306v1

摘要

arXiv:2502.00306v1 类别: cross 摘要: 通过利用外部知识数据库而不改变模型参数,检索增强生成 (RAG) 使大型语言模型 (LLMs) 能够生成基于现实的响应。尽管没有参数权重调整可以防止通过模型参数泄露,但它引入了推理对手利用检索文档在模型上下文中进行数据泄露的风险。现有的会员推理和数据提取方法往往依赖于jailbreaking或精心构造的不自然查询,这些方法可以通过RAG系统中常见的查询重写技术被轻松检测或阻止。在本工作中,我们提出了调查攻击 (IA),这是一种针对RAG数据存储中文档的会员推理技术。通过构造只能在目标文档存在的情况下才能回答的自然文本查询,我们的方法仅使用30个查询就成功实现了推理,同时保持了隐蔽性;现有的检测器识别出自有方法生成的对抗性提示的频率比我们攻击生成的提示高出约76倍。我们在多种RAG配置中实现了TPR@1%FPR的2倍改进,同时每篇文档推理成本低于0.02美元。