LLM2D
你能微调你的双筒望远镜?将文本水印嵌入大型语言模型的权重中
Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models
作者: Fay Elhassan, Niccol\`o Ajroldi, Antonio Orvieto, Jonas Geiping
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2504.06446v1

摘要

arXiv:2504.06446v1 标签类型:交叉 摘要:人工智能生成内容与人类文本难以区分,这为透明度和问责制带来了挑战。虽然存在几种在API后面的模型中嵌入水印的方法,但在模型权重中直接嵌入水印策略,这些权重在后续生成的输出中反映出来,这具有挑战性。在这项研究中,我们提出了一种策略,通过微调模型的一对低秩适配器,一个作为文本生成模型,另一个作为检测器,使在第一个模型生成的文本中嵌入细水印,并同时优化第二个模型的检测性。通过这种方式,水印策略是端到端学习的。这一过程提出了优化挑战,因为平衡水印的鲁棒性、自然性和任务性能需要权衡。我们讨论了优化这一极小极大目标的策略,并展示了对指令微调的这一修改的影响结果。