摘要
目前最有效的检测大型语言模型生成文本的技术依赖于在模型解码过程中插入可检测的签名,即水印。大多数现有的水印方法需要访问底层大型语言模型的logits,而大型语言模型 API 提供商出于模型蒸馏的担忧,不愿意分享这些信息。因此,这些水印必须由每个大型语言模型提供商独立实施。本文提出了一种模块化的后验水印程序 PostMark,该程序在解码过程完成后,通过插入一组与输入相关的单词(通过语义嵌入确定)来实现。重要的是,PostMark 不需要访问 logits,这意味着它可以由第三方实施。我们还表明,与现有的水印方法相比,PostMark 对改写攻击具有更强的鲁棒性:我们的实验涵盖了八种基线算法、五种基础大型语言模型和三个数据集。最后,我们使用自动化和人工评估评估了 PostMark 对文本质量的影响,突出了质量与改写鲁棒性之间的权衡。我们发布了代码、输出和注释,地址为 https://github.com/lilakk/PostMark。