摘要
arXiv:2502.08332v1 宣告类型: cross
摘要: 大型语言模型(LLMs)的发展引发了潜在滥用的担忧。一种实际的解决方案是在文本中嵌入水印,通过水印提取来进行所有权验证。现有的方法主要侧重于抵御修改攻击,往往忽视了其他欺骗攻击。例如,攻击者可以通过修改带有水印的文本来产生有害内容,同时不破坏水印的存在,这可能导致错误地将这种恶意内容归咎于LLM。这种情况对LLM服务提供商构成了严重威胁,突显了同时实现修改检测和生成文本检测的重要性。因此,我们提出了一种技术来检测对无偏水印的修改。我们引入了一个新的度量标准叫做“丢弃的标记”,它衡量未被水印检测包含的标记数量。当发生修改时,该度量标准会发生变化,并可作为修改的证据。此外,我们改进了水印检测过程,并引入了一种新的无偏水印方法。我们的实验表明,我们可以通过水印实现有效的双重检测能力:修改检测和生成文本检测。