摘要
大型语言模型(LLM)可能被滥用于传播网络垃圾邮件和虚假信息。内容水印技术通过在模型生成的输出中隐藏信息来阻止滥用,并可以使用秘密水印密钥进行检测。鲁棒性是核心安全属性,它表明规避检测需要(显著)降低内容质量。许多 LLM 水印方法已被提出,但鲁棒性仅针对缺乏水印方法知识且只能找到次优攻击的非自适应攻击者进行测试。我们将 LLM 水印的鲁棒性表述为一个目标函数,并提出基于偏好的优化来调整针对特定水印方法的自适应攻击。我们的评估表明:(i)自适应攻击显著优于非自适应基线。(ii)即使在非自适应环境中,针对少数已知水印进行优化的自适应攻击在针对其他未见水印进行测试时仍然非常有效,并且(iii)基于优化的攻击是实用的,并且需要不到 7 个 GPU 小时。我们的发现强调了需要针对自适应攻击者测试鲁棒性的必要性。