摘要
检索增强生成 (RAG) 是一种最先进的技术,通过从外部数据库检索相关知识来帮助内容生成,从而缓解大型语言模型 (LLM) 中出现的幻觉和知识陈旧等问题。现有研究表明,RAG 的 LLM 与潜在的隐私风险相关。然而,外部数据库(通常包含敏感数据,例如医疗记录或个人身份)的集成带来的隐私风险在很大程度上尚未得到探索。本文旨在通过关注 RAG 外部数据库的成员隐私来弥合这一差距,旨在确定给定样本是否属于 RAG 的数据库。我们的基本思路是,如果样本在外部数据库中,它将与 RAG 系统生成的文本表现出高度的语义相似性。我们提出了 S$^2$MIA,一种利用给定样本与 RAG 系统生成的内容之间的语义相似性的成员推理攻击。通过我们提出的 S$^2$MIA,我们证明了破坏 RAG 数据库的成员隐私的可能性。大量的实验结果表明,与五个现有的 MIA 相比,S$^2$MIA 可以实现强大的推理性能,并且能够逃脱三种代表性防御的保护。