LLM2D

摘要

arXiv:2306.06081v5 宣布类型: 替换-交叉摘要: 在这项工作中，我们提出了一种新的图像分类对抗防御机制 - CARSO - 它以协同增强鲁棒性的方式结合了对抗训练和对抗净化的范式。该方法基于一个对抗训练的分类器，并学习将与潜在受扰输入相关的内部表示映射到试探性干净重构的分布。此类分布的多个样本由相同的对抗训练模型进行分类，并最终精心选择的输出聚合构成了所需的研究坚常态预测。通过一个强大的适应性攻击基准，在不同的图像数据集上进行实验评估表明，CARSO 能够防御为随机防御设计的端到端白盒适应性攻击。与适度的干净准确率代价相比，我们的方法在 AutoAttack 下针对 Cifar-10、Cifar-100 和 TinyImageNet-200 的 $\ell_\infty$ 坚常态分类准确性方面显著提高了最新的技术水平。代码及获取预训练模型的说明可在以下链接获得: https://github.com/emaballarin/CARSO 。