LLM2D

摘要

arXiv:2502.10440v1 宣布类型：交叉摘要：大型语言模型（LLMs）通过检索增强生成（RAG）机制越来越多地集成到实际应用中，以补充其响应的最新和领域特定知识。然而，RAG所使用的知识库的宝贵且常为专有的性质会引入未经授权使用的风险。现有的一些可以通过通用为水印技术来保护这些知识库的方法通常涉及污染攻击。然而，这些方法需要修改验证样本的结果（例如，生成错误的输出），这不可避免地使其容易被异常检测，并且还会引入新的安全风险。为了解决这些挑战，我们提出了 \name{} 以实现知识库的“无害”版权保护。与其操控LLM的最终输出，\name{} 在思维链（CoT）推理的空间中植入独特的验证行为，保持最终答案的正确性。该方法有三个主要阶段：（1）**生成CoTs**：对于每个验证问题，我们生成两个CoTs，包括一个目标CoT以构建水印行为；（2）**优化水印短语和目标CoTs**：我们在黑盒设置的可疑LLM条件下优化它们，确保带有水印的验证查询激活目标CoTs，而在未带水印的查询中则不会激活；（3）**所有权验证**：我们利用配对的威尔斯ón秩和检验（Wilcoxon paired test）来统计验证可疑LLM是否被集成到受保护的知识库中，通过比较其对带有水印和无害验证查询的响应来进行验证。我们在多个基准测试上的实验表明，\name{} 有效地保护了知识库免受未经授权的使用，同时保持了RAG的完整性和性能。