LLM2D

摘要

arXiv:2504.21054v1 宣告类型: 交叉摘要：后门攻击对深度神经网络构成了重大威胁，因为后门模型会在特定触发下将受污染样本错误分类到目标类别中，同时在干净样本上保持正常性能。在这其中，多目标后门攻击可以同时针对多个类别。然而，现有的多目标后门攻击大多遵循肮脏标签范式，其中受污染样本被错误标记，并且大多数需要非常高的受污染率。这使得它们在人工检查时容易被发现。相比之下，未标记的后门攻击更为隐蔽，因为它们避免修改受污染样本的标签。然而，它们通常难以实现稳定的和令人满意的攻击性能，并且往往难以有效扩展到多目标攻击。为了解决这一问题，我们提出了基于特征的全目标未标记后门攻击（FFCBA），它由两种范式组成：特征跨越后门攻击（FSBA）和特征迁移后门攻击（FMBA）。FSBA 利用类别条件自编码器生成噪声触发器，使扰动的类内样本与原始类别的特征对齐，确保触发器的有效性、类内一致性、跨类特异性和自然特征相关性。虽然 FSBA 支持快速和高效的攻击，但其跨模型攻击能力相对较弱。FMBA 使用两阶段类别条件自编码器训练过程，交替使用跨类别样本和类内样本。这使 FMBA 能够生成具有强大目标类特征的触发器，使其在跨模型攻击中极为有效。我们在多个数据集和模型上进行了实验，结果显示 FFBCA 实现了出色的攻击性能，并且在最先进的后门防御措施下保持了良好的稳健性。