LLM2D

摘要

本文首次研究了大型语言模型（LLM）的**多指定检测器水印技术（MDDW）**。该技术允许模型提供者从LLM生成带有水印的输出，并具有两个关键特性： (i) 只有特定（可能多个）指定检测器可以识别水印，以及 (ii) 对普通用户而言，输出质量没有明显的下降。我们对MDDW的安全定义进行了形式化，并提出了一种使用多指定验证器签名（MDVS）为任何LLM构建MDDW的框架。鉴于LLM输出具有重要的经济价值，我们引入了可申索性作为MDDW的可选安全功能，使模型提供者能够在指定检测器设置中声明对LLM输出的所有权。为了支持可申索的MDDW，我们提出了一种通用转换方法，将任何MDVS转换为可申索的MDVS。我们对MDDW方案的实现突出了其相对于现有方法的先进功能和灵活性，并具有令人满意的性能指标。