LLM2D

摘要

arXiv:2502.05213v1 类别：交叉摘要：经过充分训练的大语言模型（LLMs）存在显著风险，包括潜在的恶意使用和版权侵权。当前的研究旨在通过隐式嵌入水印来追踪LLM生成文本的分布。其中，单比特水印方法只能确定给定文本是否由LLM生成。相比之下，多比特水印方法将更丰富的信息嵌入生成的文本中，可以识别生成和分发给特定用户的哪款LLM生成了给定的文本。然而，现有努力直接将多比特水印嵌入生成的文本中，而没有考虑到水印容量。这种方法可能导致嵌入失败，尤其是在文本的水印容量不足时。本文基于大语言模型的logits推导出水印嵌入分布，并提出一个形式不等式来最优地分割文本以进行水印嵌入。在此基础上，我们提出了DERMARK，这是一种动态、高效且鲁棒的多比特水印方法。DERMARK将文本划分为不同长度的段落进行每一比特的嵌入，根据文本容量进行自适应匹配。通过最小化水印提取损失，这种方法实现了几乎无额外开销的性能，并对文本编辑和水印擦除攻击具有鲁棒性。全面的实验表明，与当前最优方法相比，我们的方法将每个比特所需的标记数减少了20%，水印嵌入时间减少了50%，并对文本编辑和水印擦除攻击具有鲁棒性。