LLM2D
针对扩散模型的黑盒成员推断攻击
Towards Black-Box Membership Inference Attack for Diffusion Models
作者: Jingwei Li, Jing Dong, Tianxing He, Jingzhao Zhang
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2405.20771v3

摘要

鉴于AI生成艺术日益普及以及相关的版权问题,识别某幅艺术作品是否被用于训练扩散模型是一个重要的研究课题。本研究从成员推断攻击(MIA)的角度来解决这个问题。我们首先指出了将现有MIA方法应用于专有扩散模型的局限性:需要访问内部U-net。为了解决上述问题,我们提出了一种新的成员推断攻击方法,该方法仅使用图像到图像变化API,无需访问模型的内部U-net。我们的方法基于这样的直觉:对于训练集中的图像,模型更容易获得无偏噪声预测估计。通过多次将API应用于目标图像,平均输出结果,并将结果与原始图像进行比较,我们的方法可以对样本是否属于训练集进行分类。我们使用DDIM和Stable Diffusion设置验证了我们的方法,并进一步将我们的方法和现有算法扩展到Diffusion Transformer架构。我们的实验结果始终优于以前的方法。