LLM2D

摘要

arXiv:2307.06608v3 安全公告类型：替换交叉摘要：深度神经网络（DNNs）对对抗攻击的脆弱性给其在关键安全应用中的部署带来了重大挑战。尽管已经进行了广泛的研究来应对各种攻击场景，但在对手没有先验知识的情况下，即对手无法访问目标模型的训练数据的无箱攻击设置中，这种情况仍然相对未被充分探索，尽管其实际相关性不容忽视。本文进行了一项系统性的研究，探讨了如何利用大规模的视觉语言模型（VLMs），特别是在其中使用CLIP，作为执行无箱攻击的替代模型。我们的理论和实证分析揭示了执行无箱攻击的一个关键限制，即直接将原始CLIP作为替代模型应用时其不足之处在于缺乏足够的区分能力。为了解决这一限制，我们提出了MF-CLIP：一种新颖的框架，通过带有边缘感知的特征空间优化来增强CLIP作为替代模型的有效性。在多种架构和数据集上的全面评估表明，MF-CLIP在无箱攻击中显著推进了当前最先进的水平，在标准模型上的表现优于现有基线15.23%，在对抗训练模型上的表现也提高了9.52%。我们将在开源以促进该方向上的可重复性和未来研究。