LLM2D

停止推理！当具有链式推理的多模态大语言模型遇到对抗性图像时

Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image

发布日期: 9/24/2024

arXiv ID: oai:arXiv.org:2402.14899v3

摘要

多模态大语言模型（MLLMs）在文本和图像理解方面表现出色，受到了广泛关注。为了在MLLMs中实现更好的推理，链式推理（CoT）已被广泛探索，通过提供中间推理步骤进一步提升了MLLMs的可解释性。尽管MLLMs在多模态推理中表现出强大的能力，最近的研究表明它们仍然容易受到对抗性图像的影响。这引出了如下开放性问题：CoT是否也能增强MLLMs的对抗鲁棒性？在对抗性攻击下，CoT的中间推理步骤包含了什么？为了解答这些问题，我们首先通过攻击两个主要组件，即推理和答案，将现有攻击方法推广到基于CoT的推理中。我们发现，CoT确实通过利用多步推理过程在一定程度上提高了MLLMs对现有攻击方法的对抗鲁棒性，但提升并不显著。基于我们的发现，我们进一步提出了一种新颖的攻击方法，称为停止推理攻击，该方法在绕过CoT推理过程的同时对模型进行攻击。对三个MLLMs和两个视觉推理数据集的实验验证了我们提出方法的有效性。我们展示了停止推理攻击可以导致误导性预测，并且相比基线攻击方法表现出显著优势。

查看原文下载 PDF