摘要
arXiv:2505.05190v1 交叉公告类型
摘要:文本水印旨在通过控制大型语言模型(LLM)的采样过程,微妙地将统计信号嵌入文本中,使水印检测器能够验证输出是否由指定的模型生成。这些水印算法的鲁棒性已成为评估其有效性的关键因素。当前的文本水印算法在高熵令牌中嵌入水印以确保文本质量。在本文中,我们揭示了这种看似无害的设计可以被攻击者利用,对水印的鲁棒性构成重大风险。我们引入了一种通用高效改写攻击,称为Self-Information Rewrite Attack(SIRA),通过计算每个令牌的自我信息来识别潜在的模式令牌并进行定向攻击。我们的工作揭示了当前水印算法中广泛存在的漏洞。实验结果表明,SIRA仅以每百万个令牌0.88美元的成本,在七个近期的水印方法上实现了几乎100%的攻击成功率。我们的方法不需要访问水印算法或水印后的LLM,并且可以无缝地转移到任何LLM作为攻击模型,甚至包括移动级别模型。我们的研究结果强调了对更鲁棒水印的迫切需求。