摘要
大型语言模型(LLM)水印作为一种有前景的方式,可以用来确定LLM生成的文本的归属权。然而,水印可信度面临着一项威胁,即欺骗攻击,在这种攻击中,未经授权的第三方会伪造水印,从而将任意文本错误地归属于特定的LLM。虽然最近的研究表明,最先进的方案实际上容易受到欺骗攻击,但它们缺乏对欺骗方法产生的文本的更深入的定性分析。在这项工作中,我们首次揭示了真实水印文本和伪造水印文本之间存在可观察到的差异。具体来说,我们表明,无论其底层方法如何,所有当前的欺骗方法都会在伪造文本中留下可观察到的伪影,表明水印被伪造。我们利用这些发现提出了严格的统计检验,可以可靠地揭示这些伪影的存在,有效地发现水印是否被伪造。我们的实验评估表明,在所有当前的欺骗方法中,测试能力都很高,这为其基本局限性提供了见解,并提出了一种减轻这种威胁的方法。