LLM2D

摘要

本文首次研究了针对大型语言模型 (LLM) 的**多指定检测器水印 (MDDW)** 技术。该技术允许模型提供者从 LLM 中生成带水印的输出，并具有以下两个关键特性：(i) 只有特定（可能多个）指定检测器才能识别水印；(ii) 对普通用户来说，输出质量没有明显下降。我们对 MDDW 的安全定义进行了形式化，并提出了一种使用**多指定验证器签名 (MDVS)** 为任何 LLM 构建 MDDW 的框架。鉴于 LLM 输出具有显著的经济价值，我们引入了**可申明性**作为 MDDW 的可选安全功能，使模型提供者能够在指定检测器设置中声明对 LLM 输出的所有权。为了支持可申明 MDDW，我们提出了一种将任何 MDVS 转换为可申明 MDVS 的通用转换方法。我们对 MDDW 方案的实现突出了其相对于现有方法的先进功能和灵活性，并具有令人满意的性能指标。