LLM2D

摘要

arXiv:2505.02824v1 交叉公告类型摘要：文本到图像（T2I）扩散模型已经迅速发展，使得在文本提示下生成高质量的图像成为可能。然而，对于个人化的不断增长的趋势引发了对未经授权的数据集使用的重大担忧。为了应对这一问题，已经出现了数据集所有权验证（DOV）这一解决方案，通过后门技术将水印嵌入到微调数据集中。这些水印在良性样本下处于不活跃状态，但在触发时会产生拥有者指定的输出。尽管DOV对T2I扩散模型显示出前景，但其针对版权规避攻击（CEA）的鲁棒性尚未得到探索。在本文中，我们探讨了攻击者如何通过CEA绕过这些机制，使模型即使在使用带水印的数据集训练时也能绕过水印。我们提出了首个专为在T2I扩散模型中削弱DOV而设计的版权规避攻击（即CEAT2I）。具体而言，CEAT2I包含三个阶段：带水印样本检测、触发识别和高效的水印缓解。我们方法的关键洞察是，在微调过程中，T2I模型在带水印样本上表现出更快的收敛性，这通过中间特征的偏差得以体现。利用这一点，CEAT2I可以可靠地检测带水印的样本。然后，我们从检测到的带水印样本的提示中迭代删除标记符，并监控中间特征的变化来确定确切的触发标记符。最后，我们采用闭式概念擦除方法来移除注入的水印。广泛的实验表明，我们的CEAT2I能够有效地规避DOV机制，同时保持模型性能。