LLM2D

摘要

arXiv:2502.07987v2 安全通告类型: 新增摘要: 我们提出了一种针对多模态大型语言模型(LLMs)的通用对抗攻击，该攻击利用单张优化图像来跨越多种查询甚至多个模型绕过对齐防护措施。通过反向传播通过视觉编码器和语言头，我们制作了一张合成图像，迫使模型以目标短语（例如，“当然，这就是它”）或不安全的内容（即使是对有害提示也是如此）做出回应。在 SafeBench 基准测试中，我们的方法在某些模型上比现有基线方法取得了显著更高的攻击成功率，包括仅文本的通用提示（例如，某些模型高达93%）。我们还通过同时训练多个多模态LLMs并在未见过的架构上进行测试，展示了该方法在模型之间的可转移性。此外，我们方法的多答案变体生成了更自然（尽管仍然具有恶意性质）的回应。这些发现强调了当前多模态对齐中存在的关键漏洞，并呼吁开发更加健壮的对抗性防御措施。我们将按照Apache-2.0许可证发布代码和数据集。警告：本文中由多模态LLMs生成的一些内容可能对某些读者具有冒犯性。