LLM2D

摘要

arXiv:2412.16257v2 宣布类型: replace-cross 摘要：尽管文本到图像（T2I）扩散模型在图像合成质量上取得了令人印象深刻的进展，但它们的黑盒部署仍面临重大的监管挑战：恶意行为者可以通过调整模型参数来生成非法内容，从而绕过现有的安全措施。因此，验证T2I扩散模型的完整性是必不可少的。为此，鉴于生成模型输出中的随机性以及与其交互的高成本，我们通过生成图像中特征分布的KL散度来辨别模型篡改。我们提出了基于学习自动机的新型提示选择算法（PromptLA），以实现高效且准确的验证。我们在四个高级T2I模型（例如SDXL、FLUX.1）上的评估表明，我们的方法在完整性检测中的平均AUC超过0.96，超过基线方法0.2以上，展示了很强的有效性和泛化能力。此外，我们的方法具有较低的成本，并且能够抵御图像层面的后处理攻击。据我们所知，这篇论文是首次针对T2I扩散模型的完整性验证进行的工作，它为实践中的AI版权诉讼建立了可量化的标准。