LLM2D

摘要

arXiv:2312.04960v4 Announce Type: replace-cross 摘要：视觉变换器（ViTs）已成为一种基础架构，并作为现代多模态模型（如视觉-语言模型）的核心。尽管它们的性能令人印象深刻，但ViTs在对抗攻击方面表现出明显的脆弱性，这需要开发专门针对其独特架构的对抗训练（AT）策略。虽然一个直接的解决方案可能涉及将现有的AT方法应用于ViTs，但我们的分析揭示了与最先进的（SOTA）方法如Generalist（CVPR 2023）和DBAT（USENIX Security 2024）之间存在显著的不兼容性。本文对ViTs的对抗鲁棒性进行了系统性的研究，并在其基于自编码器的半监督预训练中提供了新颖的互信息（MI）分析。具体来说，我们展示了在基于ViT的自编码器中，对抗样本与其潜在表示之间的互信息应通过推导出的互信息边界进行约束。基于这一洞察，我们提出了一种半监督AT方法MIMIR，该方法采用互信息惩罚，通过掩码图像建模与自编码器结合实现对抗预训练。在CIFAR-10、Tiny-ImageNet和ImageNet-1K上的广泛实验表明，MIMIR可以一致地提供改进的自然准确性和鲁棒准确性，其中MIMIR在ImageNet-1K上的结果优于SOTA的AT结果。值得注意的是，MIMIR在对抗未预见的攻击和常见破坏数据方面显示出优越的鲁棒性，并且也可以抵御适应性攻击，其中攻击者完全了解防御机制。