LLM2D

摘要

arXiv:2505.01456v1 类型: cross 摘要: 在大规模数据集上训练的LLMs可能会无意中获取敏感信息，如个人资料和潜在有害内容。在多模态LLMs中，由于它们整合了多种模态（图像和文本）的信息，这种风险进一步增加。对手可以通过多模态提示利用这些知识提取敏感细节。评估多模态LLMs如何有效地忘记此类信息（目标卸载）需要创建高质量且注释良好的图像-文本对。尽管之前关于卸载的工作主要集中在文本上，但多模态卸载仍然很少被探索。为解决这一缺口，我们首先引入了一个多模态卸载基准，即UnLOK-VQA（超越知识VQA），以及一个攻击-防御框架来评估从多模态LLMs中删除特定知识的方法。我们使用自动化管道扩展了一个视觉问答数据集，生成了不同接近度的样本进行测试，随后进行了人工筛选以保持高质量。然后，我们对六项防御目标进行了七次攻击（四种白盒攻击，三种黑盒攻击）的评估，包括一个利用隐藏状态可解释性的新型白盒方法。结果表明，多模态攻击优于仅针对文本或图像的攻击，并且最有效的防御措施是从内部模型状态中删除答案信息。此外，更大的模型在编辑后表现出更强的鲁棒性，这表明规模可以增强安全性。UnLOK-VQA 为多模态LLMs 中的卸载研究提供了严格的基准。