LLM2D
沃德:通过 LLM 水印实现可证明的 RAG 数据集推断
Ward: Provable RAG Dataset Inference via LLM Watermarks
作者: Nikola Jovanovi\'c, Robin Staab, Maximilian Baader, Martin Vechev
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03537v1

摘要

检索增强生成(RAG)通过使LLM能够在生成过程中整合外部数据来改进LLM。这引起了数据所有者对他们的内容在RAG系统中被未经授权使用方面的担忧。尽管其重要性,检测此类未经授权使用的方法挑战仍未得到充分探索,来自相关领域的现有数据集和方法并不适合其研究。在这项工作中,我们采取了几个步骤来弥合这一差距。首先,我们将此问题形式化为(黑盒)RAG数据集推断(RAG-DI)。为了促进对此挑战的研究,我们进一步引入了一个专门为在现实条件下对RAG-DI方法进行基准测试而设计的新数据集,并提出了一组基线方法。在此基础上,我们引入了Ward,一种基于LLM水印的RAG-DI方法,使数据所有者能够获得有关其数据集在RAG系统中的使用情况的严格统计保证。在我们的实验评估中,我们表明Ward在许多具有挑战性的环境中始终优于所有基线,实现了更高的准确性、更优的查询效率和鲁棒性。我们的工作为RAG-DI的未来研究奠定了基础,并强调了LLM水印作为解决此问题的有希望的方法。