LLM2D

摘要

深度神经网络 (DNN) 模型的非法复制、分发和衍生可能会造成经济损失、声誉损害甚至隐私侵犯。诸如水印和指纹之类的被动 DNN 知识产权 (IP) 保护方法试图在 IP 违反时证明所有权，但它们往往为时已晚，无法阻止 IP 滥用造成的灾难性损害，并且对抗强大的对手也过于薄弱。在本文中，我们提出了 IDEA，一种基于逆域专家自适应的主动 DNN IP 保护方法，它具有主动授权和源可追溯性。IDEA 将主动授权概括为域自适应的逆问题。多自适应优化通过具有一个真实专家和两个虚假专家的混合专家模型来解决。真实专家重新优化源模型以正确分类测试图像，其中包含以隐写术嵌入的唯一模型用户密钥。虚假专家经过训练，在没有或有错误的用户密钥嵌入的情况下对测试图像输出随机预测，方法是最大程度地减少它们与真实专家的互信息 (MI)。MoE 模型被知识蒸馏到一个统一的受保护模型中，以避免通过最大程度地提高它们与额外的多层注意力和对比表示损失优化之间的 MI 来泄露专家模型特征。IDEA 不仅可以防止未经授权的用户在没有有效密钥的情况下访问功能模型，还可以使模型所有者验证已部署的模型并追溯 IP 侵权的来源。我们在五个数据集和四个 DNN 模型上对 IDEA 进行了广泛的评估，以证明其在授权控制、罪魁祸首追踪成功率和针对各种攻击的鲁棒性方面的有效性。