LLM2D

摘要

扩散模型（DMs）已发展成为先进的图像生成工具，特别是在少样本微调方面，其中预训练的 DM 在一小部分图像上进行微调，以捕捉特定风格或物体。许多人将这些个性化的检查点上传到网上，促进了 Civitai 和 HuggingFace 等社区的发展。然而，模型所有者可能会忽视发布其微调检查点所带来的数据泄露风险。此外，在微调过程中使用未经授权的数据也会引发版权侵犯问题。本文提出一个问题：“能否从这些在线共享的微调 DM 中提取训练数据？”成功的提取不仅会带来数据泄露威胁，还会提供版权侵犯的实质性证据。为了回答这个问题，我们提出了 FineXtract，一个用于提取微调数据的框架。我们的方法将微调近似为模型学习分布的逐渐转变——从原始预训练 DM 向微调数据转变。通过推断微调前后模型，我们引导生成过程朝微调数据分布内的高概率区域发展。然后，我们应用聚类算法从这些使用推断指导生成的图像中提取最可能的图像。在使用 WikiArt、DreamBooth 和在线发布的真实世界检查点等数据集微调的 DM 上进行的实验验证了我们方法的有效性，在大多数情况下提取了大约 20% 的微调数据，显著超过了基线性能。