摘要
arXiv:2504.04893v1 交叉公告类型
摘要:图形攻击利用文本与视觉内容在多模态基础模型中的相互作用,当误导性的文本嵌入图像中时,会导致分类错误。然而,现有的数据集在规模和多样性方面都有限,使得研究这些漏洞变得困难。在本文中,我们引入了SCAM,这是迄今为止最全面和最多样化的实际图形攻击图像数据集,包含1,162张图像,跨越数百个物体类别和攻击词。通过在SCAM上对视觉-语言模型(VLMs)进行广泛的基准测试,我们展示了图形攻击显著降低了性能,并确定了训练数据和模型架构对这些攻击的易感性有影响。我们的研究结果揭示,由于选择的视觉编码器,最先进的大型视觉-语言模型(LVLMs)仍然存在图形攻击,尽管较大的大型语言模型(LLMs)骨干网络有助于减轻它们的脆弱性。此外,我们展示了合成攻击与现实生活中的(手写)攻击非常相似,验证了它们在研究中的使用。我们的工作提供了一个全面的资源和实证见解,有助于未来针对健壮且可信赖的多模态AI系统的研究。我们在此论文中介绍的数据集已公开展示在https://huggingface.co/datasets/BLISS-e-V/SCAM,并在https://github.com/Bliss-e-V/SCAM中提供了评估代码。