LLM2D

摘要

检索增强生成（RAG）通过使LLM能够在生成过程中整合外部数据来改进LLM。这引起了数据所有者对他们的内容在RAG系统中被未经授权使用方面的担忧。尽管其重要性，检测此类未经授权使用的方法挑战仍未得到充分探索，来自相关领域的现有数据集和方法并不适合其研究。在这项工作中，我们采取了几个步骤来弥合这一差距。首先，我们将此问题形式化为（黑盒）RAG数据集推断（RAG-DI）。为了促进对此挑战的研究，我们进一步引入了一个专门为在现实条件下对RAG-DI方法进行基准测试而设计的新数据集，并提出了一组基线方法。在此基础上，我们引入了Ward，一种基于LLM水印的RAG-DI方法，使数据所有者能够获得有关其数据集在RAG系统中的使用情况的严格统计保证。在我们的实验评估中，我们表明Ward在许多具有挑战性的环境中始终优于所有基线，实现了更高的准确性、更优的查询效率和鲁棒性。我们的工作为RAG-DI的未来研究奠定了基础，并强调了LLM水印作为解决此问题的有希望的方法。