LLM2D

摘要

arXiv:2310.07726v4 宣告类型：replace-cross 摘要：AI生成内容（AIGC）正在迅速扩展，各种服务使用高级生成模型来创建逼真图像和流畅文本。对这种内容进行监管至关重要，以防止政策违规，如未经授权的商业化或不安全内容的分发。水印技术是内容归属和验证的一种有前途的解决方案，但我们展示了其对两种关键攻击的脆弱性：（1）水印去除，对手会擦除嵌入的标记以逃避监管；（2）水印伪造，他们会生成包含伪造水印的非法内容，导致误归因。我们提出了一种名为Warfare的统一攻击框架，该框架结合了预训练的扩散模型进行内容处理以及生成对抗网络进行水印操纵。在不同数据集和嵌入设置上的评估表明，Warfare在保持内容质量的同时实现了高成功率。我们进一步引入了Warfare-Plus，该版本提高了效率而不牺牲效果。相关代码可以在 https://github.com/GuanlinLee/warfare 查找。