LLM2D

摘要

arXiv:2504.04893v1 交叉公告类型摘要：图形攻击利用文本与视觉内容在多模态基础模型中的相互作用，当误导性的文本嵌入图像中时，会导致分类错误。然而，现有的数据集在规模和多样性方面都有限，使得研究这些漏洞变得困难。在本文中，我们引入了SCAM，这是迄今为止最全面和最多样化的实际图形攻击图像数据集，包含1,162张图像，跨越数百个物体类别和攻击词。通过在SCAM上对视觉-语言模型（VLMs）进行广泛的基准测试，我们展示了图形攻击显著降低了性能，并确定了训练数据和模型架构对这些攻击的易感性有影响。我们的研究结果揭示，由于选择的视觉编码器，最先进的大型视觉-语言模型（LVLMs）仍然存在图形攻击，尽管较大的大型语言模型（LLMs）骨干网络有助于减轻它们的脆弱性。此外，我们展示了合成攻击与现实生活中的（手写）攻击非常相似，验证了它们在研究中的使用。我们的工作提供了一个全面的资源和实证见解，有助于未来针对健壮且可信赖的多模态AI系统的研究。我们在此论文中介绍的数据集已公开展示在https://huggingface.co/datasets/BLISS-e-V/SCAM，并在https://github.com/Bliss-e-V/SCAM中提供了评估代码。