LLM2D
针对视觉-语言模型的成员推理攻击
Membership Inference Attacks Against Vision-Language Models
作者: Yuke Hu, Zheng Li, Zhihao Liu, Yang Zhang, Zhan Qin, Kui Ren, Chun Chen
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2501.18624v2

摘要

arXiv:2501.18624v2 通知类型: 替换交叉 摘要:基于预训练视觉编码器和大型语言模型(LLMs)的视觉-语言模型(VLMs)在多模态理解和对话能力方面表现出色,定位它们为下一代技术革命的催化剂。然而,尽管大多数VLM研究着重于增强多模态交互,但数据误用和泄露的风险却未被充分探索。这促使我们对VLM中的此类风险进行全面调查。在本文中,我们通过成员推理攻击(MIA)的视角,首次对VLM中的误用和泄露检测进行了分析。具体而言,我们重点关注VLM的指令调优数据,因为这些数据更有可能包含敏感或未授权的信息。为了解决现有MIA方法的局限性,我们引入了一种新的方法,基于样本文本集及其对温度参数的敏感性进行成员推理,温度是VLM中一个独特的参数。基于此,我们提出了四种成员推理方法,每种方法针对不同的背景知识水平,最终到达最具挑战性的场景。我们的全面评估显示,这些方法能够精确确定成员状态,例如,在LLaVA中仅针对5个样本组成的较小集合,达到AUC大于0.8的目标。