LLM2D
面向多目标检测的语言模型水印技术
Multi-Designated Detector Watermarking for Language Models
作者: Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17518v1

摘要

本文首次研究了大型语言模型(LLM)的**多指定检测器水印技术(MDDW)**。该技术允许模型提供者从LLM生成带有水印的输出,并具有两个关键特性: (i) 只有特定(可能多个)指定检测器可以识别水印,以及 (ii) 对普通用户而言,输出质量没有明显的下降。我们对MDDW的安全定义进行了形式化,并提出了一种使用多指定验证器签名(MDVS)为任何LLM构建MDDW的框架。鉴于LLM输出具有重要的经济价值,我们引入了可申索性作为MDDW的可选安全功能,使模型提供者能够在指定检测器设置中声明对LLM输出的所有权。为了支持可申索的MDDW,我们提出了一种通用转换方法,将任何MDVS转换为可申索的MDVS。我们对MDDW方案的实现突出了其相对于现有方法的先进功能和灵活性,并具有令人满意的性能指标。