摘要
arXiv:2505.05190v2 通知类型: 替换-交叉
摘要: 文本水印旨在通过控制大型语言模型 (LLM) 的采样过程,微妙地将统计信号嵌入到文本中,从而使水印检测器能够验证输出是否由指定的模型生成。这些水印算法的鲁棒性已成为评估其有效性的一个关键因素。当前的文本水印算法通过将水印嵌入高熵词汇来确保文本质量。在本文中,我们揭示了一个看似无害的设计可以被攻击者利用,对水印的鲁棒性构成了重大风险。我们提出了一种通用高效的改写攻击——自我信息改写攻击 (SIRA),这种攻击利用了这一漏洞,通过计算每个词汇的自我信息来识别潜在的模式词汇并执行有针对性的攻击。我们的工作揭示了当前水印算法中普遍存在的一种漏洞。实验结果表明,SIRA 在仅需每百万个词汇成本 0.88 美元的情况下,成功率达到接近 100% 的攻击成功率,这一方法不需要访问水印算法或带有水印的 LLM,并且可以无缝转移到任何 LLM 作为攻击模型,甚至可以应用于移动级别模型。我们的发现强调了对更鲁棒的水印方法的迫切需求。