LLM2D

摘要

视觉语言预训练 (VLP) 模型在各个领域都取得了显著的成功，但它们仍然容易受到对抗性攻击。解决这些对抗性漏洞对于增强多模态学习中的安全性至关重要。传统上，针对 VLP 模型的对抗性方法涉及同时扰乱图像和文本。然而，这种方法面临着显著的挑战：首先，对抗性扰动往往无法有效地转化为现实世界场景；其次，对文本的直接修改非常明显。为了克服这些局限性，我们提出了一种新策略，该策略仅使用图像补丁进行攻击，从而保留原始文本的完整性。我们的方法利用来自扩散模型的先验知识来增强扰动的真实性和自然性。此外，为了优化补丁放置并提高攻击的有效性，我们利用交叉注意力机制，该机制通过生成注意力图来引导策略性补丁放置，从而封装跨模态交互。在图像到文本场景的白色盒子设置中进行的综合实验表明，我们提出的方法显著优于现有技术，实现了 100% 的攻击成功率。此外，它在涉及文本到图像配置的迁移任务中也表现出令人称赞的性能。