摘要
arXiv:2504.04858v1 威胁类型:新
摘要:对抗性patches攻击通过嵌入局部扰动来误导深度模型,对视觉系统构成重大威胁。传统的防御方法通常需要重新训练或微调,这使得它们在实际部署中不太实用。我们提出了一种名为Visual Retrieval-Augmented Generation (VRAG)的无训练框架,该框架整合了视觉-语言模型(VLMs)以检测对抗性patches。通过检索视觉上相似的patches和与存储的攻击相类似的图像,VRAG可以在不断扩展的数据库中完成生成推理,以识别多种攻击类型,而无需额外的训练或微调。我们广泛评估了开源大规模VLMs,包括Qwen-VL-Plus、Qwen2.5-VL-72B和UI-TARS-72B-DPO,以及Gemini-2.0这一封闭源代码模型。值得注意的是,开源UI-TARS-72B-DPO模型达到高达95%的分类准确率,为开源对抗性patches检测设定了新的最先进的水平。Gemini-2.0则达到了最高的整体准确率,为98%,但仍然是封闭源代码模型。实验结果表明,VRAG在最少的人工标注下有效地识别各种对抗性patches的能力,为对抗性patches攻击的稳健、实用防御铺平了道路。