LLM2D

摘要

随着深度学习模型越来越多地应用于安全关键型应用，评估其对抗性扰动漏洞对于确保其可靠性和可信度至关重要。在过去十年中，已经提出了大量的白盒对抗鲁棒性评估方法（即攻击方法），从单步到多步方法，从单个方法到集成方法。尽管取得了这些进展，但在进行有意义且全面的鲁棒性评估方面仍然存在挑战，尤其是在进行大规模测试和确保评估反映现实世界对抗风险方面。在这项工作中，我们关注图像分类模型，并提出一种新的个体攻击方法，概率裕度攻击（PMA），它在概率空间而不是 logits 空间中定义对抗裕度。我们分析了 PMA 与现有的交叉熵或 logits 裕度攻击之间的关系，并表明 PMA 可以优于当前最先进的个体方法。基于 PMA，我们提出了两种类型的集成攻击方法，以平衡有效性和效率。此外，我们创建了一个百万级数据集 CC1M，它源自现有的 CC3M 数据集，并用它对对抗训练的 ImageNet 模型进行了首次百万级白盒对抗鲁棒性评估。我们的研究结果为了解个体攻击与集成攻击以及小规模评估与百万级评估之间的鲁棒性差距提供了宝贵的见解。