LLM2D

摘要

arXiv:2410.02240v5 通告类型: replace-cross 摘要：部署在敏感环境中的基于深度神经网络的系统容易受到恶意攻击。不受限制的恶意攻击通常通过操纵图像的语义内容（例如颜色或纹理）来创建既有效又具有照片真实感的恶意样本。近期的工作利用扩散反演过程将图像映射到一个潜在空间，在该空间中通过引入扰动来操纵高层语义。然而，这些方法往往会导致去噪输出中产生严重的语义失真，并且效率低下。在本研究中，我们提出了一种名为语义一致的不受限制的对抗攻击（Semantic-Consistent Unrestricted Adversarial Attacks, SCA）的新框架。该框架采用一种反演方法来提取易于编辑的噪声图，并利用多模态大规模语言模型（MLLM）在整个过程中提供语义指导。在MLLM提供的丰富语义信息下，我们使用一系列易于编辑的噪声图逐步进行DDPM去噪过程，并利用DPM Solver++加速这一过程，从而实现具有语义一致性的高效采样。与现有方法相比，我们的框架能够高效地生成语义变化最小的恶意样本。因此，我们首次引入了语义一致的恶意样本（Semantic-Consistent Adversarial Examples, SCAE）。大量实验和可视化结果表明，SCA具有很高的效率，平均而言比现有最先进的攻击方法快12倍。我们的研究还能进一步引起对多媒体信息安全性问题的关注。