LLM2D
什么是其中的奥秘?大规模共享扩散模型的概念审计
What Lurks Within? Concept Auditing for Shared Diffusion Models at Scale
作者: Xiaoyong Yuan, Xiaolong Ma, Linke Guo, Lan Zhang
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14815v1

摘要

arXiv:2504.14815v1 宣告类型: cross 摘要:扩散模型(DMs)已经革新了从文本生成图像的方式,使得能够从文本提示生成高度真实和定制化的图像。随着高效参数微调(PEFT)技术,如LoRA的发展,用户现在可以使用最少的计算资源自定义预训练模型。然而,这些微调过的DMs在开放平台上广泛分享引发了日益增长的伦理和法律担忧,因为这些模型可能会无意或故意生成敏感或未经授权的内容,例如版权材料、私人个体或有害内容。尽管监管机构对生成式AI越来越关注,但目前尚无实用工具在部署前系统地审核这些模型。在这篇论文中,我们解决了概念审核的问题:确定微调过的DM是否学习生成特定的目标概念。现有方法通常依赖于基于提示的输入设计和基于输出的图像分类,但存在关键的限制,包括提示不确定性、概念漂移和可扩展性差。为了克服这些挑战,我们提出了Prompt-Agnostic Image-Free Auditing(PAIA),这是一种新颖的基于模型的概念审核框架。通过将DM作为检查对象,PAIA能够直接分析模型的内部行为,无需优化提示或生成图像。我们在一个公开的DM分享平台获取的320个受控模型和690个现实生活中的社区模型上评估了PAIA。PAIA在检测准确性方面达到了超过90%,并且与现有基线相比将审核时间减少了18-40倍。据我们所知,PAIA是第一个可扩展且实用的扩散模型预部署概念审核解决方案,为更安全、更透明的扩散模型分享提供了实用基础。