LLM2D
多模态LLM中敏感信息的卸载:基准与攻防评估
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation
作者: Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.01456v1

摘要

arXiv:2505.01456v1 类型: cross 摘要: 在大规模数据集上训练的LLMs可能会无意中获取敏感信息,如个人资料和潜在有害内容。在多模态LLMs中,由于它们整合了多种模态(图像和文本)的信息,这种风险进一步增加。对手可以通过多模态提示利用这些知识提取敏感细节。评估多模态LLMs如何有效地忘记此类信息(目标卸载)需要创建高质量且注释良好的图像-文本对。尽管之前关于卸载的工作主要集中在文本上,但多模态卸载仍然很少被探索。为解决这一缺口,我们首先引入了一个多模态卸载基准,即UnLOK-VQA(超越知识VQA),以及一个攻击-防御框架来评估从多模态LLMs中删除特定知识的方法。我们使用自动化管道扩展了一个视觉问答数据集,生成了不同接近度的样本进行测试,随后进行了人工筛选以保持高质量。然后,我们对六项防御目标进行了七次攻击(四种白盒攻击,三种黑盒攻击)的评估,包括一个利用隐藏状态可解释性的新型白盒方法。结果表明,多模态攻击优于仅针对文本或图像的攻击,并且最有效的防御措施是从内部模型状态中删除答案信息。此外,更大的模型在编辑后表现出更强的鲁棒性,这表明规模可以增强安全性。UnLOK-VQA 为多模态LLMs 中的卸载研究提供了严格的基准。