LLM2D

摘要

扩散模型在图像质量和对文本提示的保真度方面取得了显著进展。与此同时，此类生成模型的安全问题也日益受到关注。这项工作介绍了一种新型的越狱攻击，它会触发 T2I 模型生成带有视觉文本的图像，其中图像和文本在孤立的情况下被认为是安全的，但组合在一起会形成不安全的内容。为了系统地探索这种现象，我们提出了一个数据集来评估当前基于扩散的文本到图像 (T2I) 模型在这样的越狱攻击下的表现。我们对九个代表性的 T2I 模型进行了基准测试，包括两个闭源商业模型。实验结果揭示了一种令人担忧的趋势，即生成不安全内容：所有测试的模型都遭受了这种类型的越狱攻击，不安全生成率从 8% 到 74% 不等。在现实世界场景中，通常会采用各种过滤器，如关键词黑名单、自定义提示过滤器和 NSFW 图像过滤器，来减轻这些风险。我们评估了这些过滤器针对我们越狱攻击的有效性，发现虽然当前的分类器可能对单一模态检测有效，但它们无法抵御我们的越狱攻击。我们的工作为进一步发展更安全可靠的 T2I 模型奠定了基础。