摘要
arXiv:2504.11707v1 Announce Type: cross
摘要:在过去几年中,我们见证了文本生成图像(T2I)模型的杰出成功及其在网上的广泛应用。为了生成超真实的图像,大量的研究推动了T2I模型的发展,也带来了一些新的关注点,如生成不适合工作环境(NSFW)的网络内容以及污染网络社会。为了帮助预防T2I模型的误用并为用户提供更安全的网络环境,这些模型中使用了诸如NSFW过滤器和事后安全检查等功能。然而,近期的工作揭示了这些方法如何容易未能预防误用。尤其是,针对文本和图像模态的对抗攻击很容易凌驾于防御措施之上。利用这种能力,对抗攻击成为日益关注的问题。此外,目前尚无稳健的多模态NSFW数据集,其中包括提示和图像对以及对抗样本。这项工作提出了一种使用开源扩散模型生成的一百万规模的提示和图像数据集。其次,我们开发了一种多模态防御方法,以区分安全和NSFW的文本和图像,并且该防御方法对对抗攻击具有鲁棒性,并直接缓解了当前的挑战。我们广泛的实验表明,我们的模型在准确性与召回率方面优于现有的最佳NSFW检测方法,在多模态对抗攻击场景中将攻击成功率(ASR)大幅降低。代码:https://github.com/shahidmuneer/multimodal-nsfw-defense。