LLM2D

摘要

arXiv:2504.04858v1 威胁类型：新摘要：对抗性patches攻击通过嵌入局部扰动来误导深度模型，对视觉系统构成重大威胁。传统的防御方法通常需要重新训练或微调，这使得它们在实际部署中不太实用。我们提出了一种名为Visual Retrieval-Augmented Generation (VRAG)的无训练框架，该框架整合了视觉-语言模型（VLMs）以检测对抗性patches。通过检索视觉上相似的patches和与存储的攻击相类似的图像，VRAG可以在不断扩展的数据库中完成生成推理，以识别多种攻击类型，而无需额外的训练或微调。我们广泛评估了开源大规模VLMs，包括Qwen-VL-Plus、Qwen2.5-VL-72B和UI-TARS-72B-DPO，以及Gemini-2.0这一封闭源代码模型。值得注意的是，开源UI-TARS-72B-DPO模型达到高达95%的分类准确率，为开源对抗性patches检测设定了新的最先进的水平。Gemini-2.0则达到了最高的整体准确率，为98%，但仍然是封闭源代码模型。实验结果表明，VRAG在最少的人工标注下有效地识别各种对抗性patches的能力，为对抗性patches攻击的稳健、实用防御铺平了道路。