LLM2D
面向物理世界的干净标签后门攻击
Towards Clean-Label Backdoor Attacks in the Physical World
作者: Thinh Dao, Cuong Chi Le, Khoa D Doan, Kok-Seng Wong
发布日期: 11/27/2024
arXiv ID: oai:arXiv.org:2407.19203v2

摘要

深度神经网络(DNN)已被证明容易受到后门投毒攻击,大多数研究都集中在**数字触发器**上——这是一种添加到测试时输入的特殊模式,以诱导目标错误分类。**物理触发器**,即物理场景中的自然物体,已成为一种理想的替代方案,因为它能够在无需数字操作的情况下实现实时后门激活。然而,目前的物理后门攻击需要投毒输入具有错误标签,这使得它们很容易被人为检查出来。在本文中,我们通过对面部识别和动物分类任务的实验,探索了一种新的攻击范式,即**干净标签物理后门攻击 (CLPBA)**。我们的研究表明,使用正确的投毒算法和物理触发器,CLPBA 可能构成严重的威胁。一个关键发现是,与利用记忆机制在深度网络中植入后门的数字后门攻击不同,CLPBA 通过扰动将触发器分布的特征(即触发器样本的分布)嵌入到投毒图像中。我们还发现,具有代表性的防御措施并不能轻易防御 CLPBA,因为 CLPBA 从根本上打破了这些防御背后的核心假设。我们的研究强调了意外后门激活是 CLPBA 的一个局限性,当意外的物体或类别导致模型错误分类为目标类别时就会发生这种情况。代码和数据集可在 https://github.com/21thinh/Clean-Label-Physical-Backdoor-Attacks 找到。