摘要
arXiv:2505.06827v1 交叉类型
摘要:对AI生成文本进行水印是打击滥用的关键。然而,最近的理论工作认为,任何水印都可以通过扰动文本以保持质量的随机漫步攻击被擦除。然而,这样的攻击依赖于两个关键假设:(1) 快速混合(水印在扰动下迅速消失),(2) 可靠的质量保存(自动质量指南在引导编辑时完全可靠)。通过大规模实验和人验证评估,我们发现混合过程是缓慢的:在数百次编辑后,100%的扰动文本仍然保留着它们来源的痕迹,这违背了快速混合的假设。质量指南失效了,因为最先进的质量检测器在判断编辑时出错(准确度为77%),在攻击中加剧了错误。最终,攻击效果不佳:自动化的行走过程只能在26%的情况下去除水印——在人类质量审查下这一比例降至10%。这些发现挑战了水印去除的不可避免性。相反,实际障碍——缓慢的混合和不完美的质量控制——表明水印标记比理论模型所暗示的要更加 robust。理想的攻击和现实可行性之间的差距凸显了需要更强的水印方法和更现实的攻击模型的必要性。