摘要
arXiv:2412.16257v2 宣布类型: replace-cross
摘要:尽管文本到图像(T2I)扩散模型在图像合成质量上取得了令人印象深刻的进展,但它们的黑盒部署仍面临重大的监管挑战:恶意行为者可以通过调整模型参数来生成非法内容,从而绕过现有的安全措施。因此,验证T2I扩散模型的完整性是必不可少的。为此,鉴于生成模型输出中的随机性以及与其交互的高成本,我们通过生成图像中特征分布的KL散度来辨别模型篡改。我们提出了基于学习自动机的新型提示选择算法(PromptLA),以实现高效且准确的验证。我们在四个高级T2I模型(例如SDXL、FLUX.1)上的评估表明,我们的方法在完整性检测中的平均AUC超过0.96,超过基线方法0.2以上,展示了很强的有效性和泛化能力。此外,我们的方法具有较低的成本,并且能够抵御图像层面的后处理攻击。据我们所知,这篇论文是首次针对T2I扩散模型的完整性验证进行的工作,它为实践中的AI版权诉讼建立了可量化的标准。