LLM2D

摘要

arXiv:2504.14815v1 宣告类型: cross 摘要：扩散模型（DMs）已经革新了从文本生成图像的方式，使得能够从文本提示生成高度真实和定制化的图像。随着高效参数微调（PEFT）技术，如LoRA的发展，用户现在可以使用最少的计算资源自定义预训练模型。然而，这些微调过的DMs在开放平台上广泛分享引发了日益增长的伦理和法律担忧，因为这些模型可能会无意或故意生成敏感或未经授权的内容，例如版权材料、私人个体或有害内容。尽管监管机构对生成式AI越来越关注，但目前尚无实用工具在部署前系统地审核这些模型。在这篇论文中，我们解决了概念审核的问题：确定微调过的DM是否学习生成特定的目标概念。现有方法通常依赖于基于提示的输入设计和基于输出的图像分类，但存在关键的限制，包括提示不确定性、概念漂移和可扩展性差。为了克服这些挑战，我们提出了Prompt-Agnostic Image-Free Auditing（PAIA），这是一种新颖的基于模型的概念审核框架。通过将DM作为检查对象，PAIA能够直接分析模型的内部行为，无需优化提示或生成图像。我们在一个公开的DM分享平台获取的320个受控模型和690个现实生活中的社区模型上评估了PAIA。PAIA在检测准确性方面达到了超过90%，并且与现有基线相比将审核时间减少了18-40倍。据我们所知，PAIA是第一个可扩展且实用的扩散模型预部署概念审核解决方案，为更安全、更透明的扩散模型分享提供了实用基础。