摘要
arXiv:2412.00114v2 公告类型: replace-cross
摘要:大型视觉语言模型(LVLMs)在解释视觉内容方面展现了令人瞩目的能力。虽然现有研究展示了这些模型在刻意放置的恶意文本面前的脆弱性,但这些文本通常很容易被识别为异常。在本文中,我们提出了首个生成场景一致性类型学恶意攻击的方法,能够在保持视觉自然性的同时误导高级LVLMs。我们的方法解决了三个关键问题:生成什么样的恶意文本、在场景中的何处放置以及如何无缝地集成。我们提出了一种基于LLM的场景一致性类型学恶意攻击计划(SceneTAP),采用三阶段过程:场景理解、恶意攻击规划和无缝集成。SceneTAP 利用链式推理来理解场景、制定有效的恶意文本、战略性地规划其位置,并提供详细的自然集成指令。随后,SceneTAP 使用局部扩散机制执行攻击。我们将该方法扩展到实际应用场景,在物理环境中打印并放置生成的补丁,展示了其实用意义。广泛的实验表明,我们的场景一致性恶意文本成功地误导了最新的LVLMs,包括ChatGPT-4o,即使在捕捉到物理设置的新图像后也是如此。我们的评估表明,在保持视觉自然性和语境适宜性的同时,攻击成功率有了显著提高。本文突显了当前视觉语言模型在复杂、场景一致的恶意攻击面前的漏洞,并提供了潜在防御机制的见解。