LLM2D

摘要

arXiv:2412.00114v2 公告类型: replace-cross 摘要：大型视觉语言模型（LVLMs）在解释视觉内容方面展现了令人瞩目的能力。虽然现有研究展示了这些模型在刻意放置的恶意文本面前的脆弱性，但这些文本通常很容易被识别为异常。在本文中，我们提出了首个生成场景一致性类型学恶意攻击的方法，能够在保持视觉自然性的同时误导高级LVLMs。我们的方法解决了三个关键问题：生成什么样的恶意文本、在场景中的何处放置以及如何无缝地集成。我们提出了一种基于LLM的场景一致性类型学恶意攻击计划（SceneTAP），采用三阶段过程：场景理解、恶意攻击规划和无缝集成。SceneTAP 利用链式推理来理解场景、制定有效的恶意文本、战略性地规划其位置，并提供详细的自然集成指令。随后，SceneTAP 使用局部扩散机制执行攻击。我们将该方法扩展到实际应用场景，在物理环境中打印并放置生成的补丁，展示了其实用意义。广泛的实验表明，我们的场景一致性恶意文本成功地误导了最新的LVLMs，包括ChatGPT-4o，即使在捕捉到物理设置的新图像后也是如此。我们的评估表明，在保持视觉自然性和语境适宜性的同时，攻击成功率有了显著提高。本文突显了当前视觉语言模型在复杂、场景一致的恶意攻击面前的漏洞，并提供了潜在防御机制的见解。