摘要
arXiv:2503.21164v1 类型:交叉
摘要:物理世界中存在的对抗样本对在自主驾驶等关键安全应用中部署深度神经网络提出了重大挑战。目前大多数用于生成物理世界对抗样本的方法都是临时的,依赖于特定场景的手动修改,例如阴影、激光束或贴纸。在本文中,我们介绍了一类新的物理世界对抗样本AdvWT,它借鉴了自然现象“磨损和损坏”这一物理对象的固有特性。与人工制造的扰动不同,“磨损和损坏”是由于环境退化随着时间有机产生的,如户外标志牌的逐渐损坏。为了实现这一点,AdvWT采取两步方法。首先,使用基于生成对抗网络(GAN)的无监督图像到图像的转换网络来模拟这些自然出现的损伤,特别是在户外标志牌的上下文中。转换网络将受损标志的特征编码为一个潜在的“损伤样式代码”。在第二步中,我们向样式代码中引入对抗扰动,有策略地优化其转换过程。这种操作微妙地改变了损伤样式的表示,指导网络生成对抗图像,使损伤的外观在感知上仍然看起来是真实的,同时确保其对神经网络具有误导性。通过在两个交通标志数据集上进行全面实验,我们展示了AdvWT在数字和物理领域都有效地误导了DNNs。AdvWT在对抗成功率、鲁棒性和天然外观方面均优于现有的物理世界对抗样本。此外,在训练中集成AdvWT可以增强模型对真实世界损坏标志的泛化能力。