LLM2D

摘要

目标检测模型广泛应用于安全关键应用中，容易受到后门攻击，导致在触发特定模式时出现目标错误分类。现有的后门防御技术主要针对图像分类器等简单模型设计，通常无法有效地检测和去除目标检测器中的后门。我们提出了一种针对目标检测模型的后门防御框架，基于观察到后门攻击会导致局部模块的行为之间出现显著的不一致，例如区域建议网络 (RPN) 和分类头。通过量化和分析这些不一致，我们开发了一种算法来检测后门。我们发现不一致的模块通常是后门行为的主要来源，这导致了一种去除方法，该方法定位受影响的模块，重置其参数，并在一个小干净数据集上微调模型。对最先进的两阶段目标检测器的广泛实验表明，我们的方法在后门去除率方面比微调基线提高了 90%，同时将干净数据精度损失限制在 4% 以下。据我们所知，这项工作提出了第一个针对两阶段目标检测模型中的后门检测和去除问题的方法，推动了保护这些复杂系统免受后门攻击的领域发展。