LLM2D

摘要

arXiv:2410.13907v2 宣告类型: replace-cross 摘要：语言模型（LMs）已成为急需保护的重要知识产权（IP）资产。尽管已经提出了各种水印策略，但它们仍然容易受到线性功能等价攻击（LFEA）的攻击，这种攻击可以在不了解水印方案或训练数据的情况下无效化大多数现有的白盒水印。本文分析并扩展了LFEA的攻击场景，将其应用于语言模型中常用的黑盒设置，考虑了最后一层输出（称为LL-LFEA）。我们发现输出矩阵的零空间对LL-LFEA攻击保持不变。基于这一发现，我们提出了一个任务无关的黑盒水印方案NSmark，能够抵抗LL-LFEA攻击。NSmark包括三个阶段：(i) 使用所有者数字签名生成水印，通过扩展的频谱扩展调制提高鲁棒性；(ii) 通过保持语言模型性能的同时最大化水印容量的输出映射提取器嵌入水印；(iii) 通过提取率和零空间一致性进行水印验证。对预训练和下游任务的广泛实验证实了我们方法的有效性、可扩展性、可靠性、准确性和鲁棒性。代码可在 https://github.com/dongdongzhaoUP/NSmark 获取。