LLM2D

摘要

arXiv:2501.14122v2 声明类型: replace-cross 摘要：我们提出了一种针对对抗性黑盒未目标化和目标化攻击的强化学习平台 RLAB，该平台允许用户从各种失真过滤器中选择，以创建对抗性示例。该平台使用一个强化学习代理，该代理在不显著增加输入图像失真的同时，还能导致目标模型产生错误分类。代理使用一种新颖的双重动作方法，在每一步探索输入图像，以识别适用于添加失真的敏感区域，同时去除对目标模型影响较小的噪声。这种双重动作导致了攻击更快且更高效的收敛。该平台还可以用于测量图像分类模型在特定失真类型下的鲁棒性。此外，使用对抗样本重新训练模型，在基准数据集上评估时显著提高了鲁棒性。所提出的平台在需要平均查询次数以导致错误分类方面优于最先进的方法。这促进了信任度并产生了积极的社会影响。