LLM2D

摘要

arXiv:2502.08332v1 宣告类型: cross 摘要: 大型语言模型（LLMs）的发展引发了潜在滥用的担忧。一种实际的解决方案是在文本中嵌入水印，通过水印提取来进行所有权验证。现有的方法主要侧重于抵御修改攻击，往往忽视了其他欺骗攻击。例如，攻击者可以通过修改带有水印的文本来产生有害内容，同时不破坏水印的存在，这可能导致错误地将这种恶意内容归咎于LLM。这种情况对LLM服务提供商构成了严重威胁，突显了同时实现修改检测和生成文本检测的重要性。因此，我们提出了一种技术来检测对无偏水印的修改。我们引入了一个新的度量标准叫做“丢弃的标记”，它衡量未被水印检测包含的标记数量。当发生修改时，该度量标准会发生变化，并可作为修改的证据。此外，我们改进了水印检测过程，并引入了一种新的无偏水印方法。我们的实验表明，我们可以通过水印实现有效的双重检测能力：修改检测和生成文本检测。