LLM2D
针对视觉-语言模型的成员推断攻击
Membership Inference Attacks Against Vision-Language Models
作者: Yuke Hu, Zheng Li, Zhihao Liu, Yang Zhang, Zhan Qin, Kui Ren, Chun Chen
发布日期: 2/3/2025
arXiv ID: oai:arXiv.org:2501.18624v1

摘要

arXiv:2501.18624v1 类型: cross 摘要: 基于预训练视觉编码器和大型语言模型(LLMs)的视觉-语言模型(VLMs)在多模态理解和对话能力方面表现出色,使其成为下一个技术革命的动力。然而,尽管大多数VLM研究集中在增强多模态交互上,但在数据滥用和泄露风险方面,现有研究仍相对空白。这促使我们对VLM中的这些风险进行全面研究。在本文中,我们首次从成员推理攻击(MIA)的角度分析了VLM中的滥用和泄露检测。具体来说,我们重点关注VLM的指令调整数据,这些数据更可能包含敏感或未经授权的信息。为了解决现有MIA方法的局限性,我们提出了一个新的方法,该方法根据样本集及其对温度(VLM中的一个独特参数)的敏感性推断成员身份。基于此,我们提出了四种成员推理方法,每种方法针对不同的背景知识水平,最终达到了最具挑战性的场景。我们的全面评估表明,这些方法能够准确确定成员身份状态,例如,在LLaVA中针对仅包含5个样本的小集合,AUC达到0.8以上。