LLM2D

摘要

arXiv:2504.06446v1 标签类型：交叉摘要：人工智能生成内容与人类文本难以区分，这为透明度和问责制带来了挑战。虽然存在几种在API后面的模型中嵌入水印的方法，但在模型权重中直接嵌入水印策略，这些权重在后续生成的输出中反映出来，这具有挑战性。在这项研究中，我们提出了一种策略，通过微调模型的一对低秩适配器，一个作为文本生成模型，另一个作为检测器，使在第一个模型生成的文本中嵌入细水印，并同时优化第二个模型的检测性。通过这种方式，水印策略是端到端学习的。这一过程提出了优化挑战，因为平衡水印的鲁棒性、自然性和任务性能需要权衡。我们讨论了优化这一极小极大目标的策略，并展示了对指令微调的这一修改的影响结果。