LLM2D

摘要

鉴于AI生成艺术日益普及以及相关的版权问题，识别某幅艺术作品是否被用于训练扩散模型是一个重要的研究课题。本研究从成员推断攻击（MIA）的角度来解决这个问题。我们首先指出了将现有MIA方法应用于专有扩散模型的局限性：需要访问内部U-net。为了解决上述问题，我们提出了一种新的成员推断攻击方法，该方法仅使用图像到图像变化API，无需访问模型的内部U-net。我们的方法基于这样的直觉：对于训练集中的图像，模型更容易获得无偏噪声预测估计。通过多次将API应用于目标图像，平均输出结果，并将结果与原始图像进行比较，我们的方法可以对样本是否属于训练集进行分类。我们使用DDIM和Stable Diffusion设置验证了我们的方法，并进一步将我们的方法和现有算法扩展到Diffusion Transformer架构。我们的实验结果始终优于以前的方法。