LLM2D
医疗多模态模型窃取攻击通过对抗域对齐
Medical Multimodal Model Stealing Attacks via Adversarial Domain Alignment
作者: Yaling Shen, Zhixiong Zhuang, Kun Yuan, Maria-Irina Nicolae, Nassir Navab, Nicolas Padoy, Mario Fritz
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02438v1

摘要

arXiv:2502.02438v1 交叉类型: cross 摘要:医学多模态大语言模型(MLLMs)已成为医疗系统的重要组成部分,帮助医疗人员进行决策和结果分析。用于放射学报告生成的模型能够解释医学图像,从而减轻放射科医生的工作负担。由于医学数据稀缺且受隐私法规保护,医学MLLMs代表了有价值的知识产权。然而,这些资产可能存在模型盗窃的风险,在这种攻击中,攻击者希望通过黑盒访问复制其功能。到目前为止,医学领域的模型盗窃主要集中在分类;然而,现有的攻击对MLLMs无效。在本文中,我们介绍了对抗领域对齐(ADA-STEAL),这是首个针对医学MLLMs的盗窃攻击。ADA-STEAL依赖于自然图像,这些图像公开且广泛可用,而非医学对应的图像。我们展示了通过对抗噪声的数据增强足以克服自然图像与受害MLLM特定领域数据分布之间的数据分布差距。在IU X-RAY和MIMIC-CXR放射学数据集上的实验证明,对抗领域对齐使攻击者能够在不接触医学数据的情况下窃取医学MLLM。