LLM2D
Don't Lag, RAG: 基于RAG的无训练 adversarial 检测
Don't Lag, RAG: Training-Free Adversarial Detection Using RAG
作者: Roie Kazoom, Raz Lapid, Moshe Sipper, Ofer Hadar
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04858v1

摘要

arXiv:2504.04858v1 威胁类型:新 摘要:对抗性patches攻击通过嵌入局部扰动来误导深度模型,对视觉系统构成重大威胁。传统的防御方法通常需要重新训练或微调,这使得它们在实际部署中不太实用。我们提出了一种名为Visual Retrieval-Augmented Generation (VRAG)的无训练框架,该框架整合了视觉-语言模型(VLMs)以检测对抗性patches。通过检索视觉上相似的patches和与存储的攻击相类似的图像,VRAG可以在不断扩展的数据库中完成生成推理,以识别多种攻击类型,而无需额外的训练或微调。我们广泛评估了开源大规模VLMs,包括Qwen-VL-Plus、Qwen2.5-VL-72B和UI-TARS-72B-DPO,以及Gemini-2.0这一封闭源代码模型。值得注意的是,开源UI-TARS-72B-DPO模型达到高达95%的分类准确率,为开源对抗性patches检测设定了新的最先进的水平。Gemini-2.0则达到了最高的整体准确率,为98%,但仍然是封闭源代码模型。实验结果表明,VRAG在最少的人工标注下有效地识别各种对抗性patches的能力,为对抗性patches攻击的稳健、实用防御铺平了道路。