LLM2D
面向查询的视觉攻击QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models
QAVA: Query-Agnostic Visual Attack to Large Vision-Language Models
作者: Yudong Zhang, Ruobing Xie, Jiansheng Chen, Xingwu Sun, Zhanhui Kang, Yu Wang
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11038v1

摘要

arXiv:2504.11038v1 Announce Type: 异常 摘要:在典型的多模态任务中,如视觉问答(VQA),针对特定图像和问题的对抗攻击可能导致大型视觉语言模型(LVLMs)提供错误的答案。然而,单个图像通常与多个问题相关联,即使对于特定问题攻击的对抗图像,LVLMs也可能正确回答其他问题。为了解决这个问题,我们引入了查询无感知的视觉攻击(QAVA),其目标是生成能够对未指定和未知问题产生错误响应的鲁棒对抗样本。与传统的专注于特定图像和问题的对抗攻击相比,QAVA在未知问题场景下对图像的攻击效果和效率有了显著提升,达到了与已知目标问题攻击相当的性能。我们的研究扩展了在实际场景中LVLMs视觉对抗攻击的范围,揭示了先前未被注意到的漏洞,特别是在视觉对抗威胁的背景下。代码可在 https://github.com/btzyd/qava 获取。