摘要
arXiv:2307.06608v3 安全公告类型:替换交叉
摘要:深度神经网络(DNNs)对对抗攻击的脆弱性给其在关键安全应用中的部署带来了重大挑战。尽管已经进行了广泛的研究来应对各种攻击场景,但在对手没有先验知识的情况下,即对手无法访问目标模型的训练数据的无箱攻击设置中,这种情况仍然相对未被充分探索,尽管其实际相关性不容忽视。本文进行了一项系统性的研究,探讨了如何利用大规模的视觉语言模型(VLMs),特别是在其中使用CLIP,作为执行无箱攻击的替代模型。我们的理论和实证分析揭示了执行无箱攻击的一个关键限制,即直接将原始CLIP作为替代模型应用时其不足之处在于缺乏足够的区分能力。为了解决这一限制,我们提出了MF-CLIP:一种新颖的框架,通过带有边缘感知的特征空间优化来增强CLIP作为替代模型的有效性。在多种架构和数据集上的全面评估表明,MF-CLIP在无箱攻击中显著推进了当前最先进的水平,在标准模型上的表现优于现有基线15.23%,在对抗训练模型上的表现也提高了9.52%。我们将在开源以促进该方向上的可重复性和未来研究。