摘要
arXiv:2504.04893v2 宣告类型: 替换-交叉
摘要:版式攻击利用了多模态基础模型中文本和视觉内容之间的相互作用,当在图像中嵌入误导性文本时,会导致分类错误。然而,现有的数据集在规模和多样性方面存在限制,使得研究此类漏洞变得困难。本文中,我们介绍了迄今为止最大的也是最多样化的现实世界版式攻击图像数据集SCAM,包含1,162张图像,覆盖数百个物体类别和攻击词。通过对SCAM进行广泛的视觉-语言模型(VLM)基准测试,我们证明了版式攻击显著降低了性能,并确定训练数据和模型架构影响这些攻击的易感性。我们的研究表明,由于选择的视觉编码器,当今最先进的大型视觉-语言模型(LVLM)中的版式攻击仍然存在,尽管较大的大型语言模型(LLM)架构有助于减轻这种脆弱性。此外,我们展示了合成攻击与现实世界的(手写)攻击非常相似,验证了它们在研究中的使用。我们的工作提供了全面的资源和实证见解,以促进未来研究,以开发健壮和可信赖的多模态AI系统。我们已将本文中介绍的数据集公开发布在https://huggingface.co/datasets/BLISS-e-V/SCAM上,并在https://github.com/Bliss-e-V/SCAM上提供了评估代码。