摘要
arXiv:2410.06699v1 类型: cross
摘要: 大型视觉语言模型(LVLMs)将视觉信息整合到大型语言模型中,展现了卓越的多模态对话能力。然而,视觉模块为LVLMs引入了新的健壮性挑战,攻击者可以制作视觉上干净但可能误导模型生成错误答案的对抗图像。通常,LVLMs依赖视觉编码器将图像转换为视觉标记,这对于语言模型有效感知图像内容至关重要。因此,我们对一个问题感到好奇:当编码的视觉标记受到攻击并扰乱视觉信息时,LVLMs 是否还能生成正确的回应?为了达到这个目的,我们提出了一种非目标攻击方法,称为VT-Attack(视觉标记攻击),从多个角度构建对抗示例,旨在全面扰乱特征表示、固有关系以及视觉编码器输出的视觉标记的语义属性。仅通过访问所提出的攻击中使用的图像编码器,生成的对抗示例在使用相同图像编码器的各种LVLMs之间表现出可转移性,并且在不同任务中表现出普适性。广泛的实验验证了VT-Attack相对于基线方法的优越攻击性能,展示了其在攻击配备图像编码器的LVLMs方面的有效性,进而为LVLMs的健壮性提供了指导,特别是在视觉特征空间的稳定性方面。