LLM2D

摘要

检索增强生成 (RAG) 是一种最先进的技术，通过从外部数据库检索相关知识来帮助内容生成，从而缓解大型语言模型 (LLM) 中出现的幻觉和知识陈旧等问题。现有研究表明，RAG 的 LLM 与潜在的隐私风险相关。然而，外部数据库（通常包含敏感数据，例如医疗记录或个人身份）的集成带来的隐私风险在很大程度上尚未得到探索。本文旨在通过关注 RAG 外部数据库的成员隐私来弥合这一差距，旨在确定给定样本是否属于 RAG 的数据库。我们的基本思路是，如果样本在外部数据库中，它将与 RAG 系统生成的文本表现出高度的语义相似性。我们提出了 S$^2$MIA，一种利用给定样本与 RAG 系统生成的内容之间的语义相似性的成员推理攻击。通过我们提出的 S$^2$MIA，我们证明了破坏 RAG 数据库的成员隐私的可能性。大量的实验结果表明，与五个现有的 MIA 相比，S$^2$MIA 可以实现强大的推理性能，并且能够逃脱三种代表性防御的保护。