LLM2D
文本到图像模型的多模态语义越狱
Multimodal Pragmatic Jailbreak on Text-to-image Models
作者: Tong Liu, Zhixin Lai, Gengyuan Zhang, Philip Torr, Vera Demberg, Volker Tresp, Jindong Gu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19149v1

摘要

扩散模型在图像质量和对文本提示的保真度方面取得了显著进展。与此同时,此类生成模型的安全问题也日益受到关注。这项工作介绍了一种新型的越狱攻击,它会触发 T2I 模型生成带有视觉文本的图像,其中图像和文本在孤立的情况下被认为是安全的,但组合在一起会形成不安全的内容。为了系统地探索这种现象,我们提出了一个数据集来评估当前基于扩散的文本到图像 (T2I) 模型在这样的越狱攻击下的表现。我们对九个代表性的 T2I 模型进行了基准测试,包括两个闭源商业模型。实验结果揭示了一种令人担忧的趋势,即生成不安全内容:所有测试的模型都遭受了这种类型的越狱攻击,不安全生成率从 8% 到 74% 不等。在现实世界场景中,通常会采用各种过滤器,如关键词黑名单、自定义提示过滤器和 NSFW 图像过滤器,来减轻这些风险。我们评估了这些过滤器针对我们越狱攻击的有效性,发现虽然当前的分类器可能对单一模态检测有效,但它们无法抵御我们的越狱攻击。我们的工作为进一步发展更安全可靠的 T2I 模型奠定了基础。