LLM2D

摘要

arXiv:2503.21305v1 嵌入类型: cross 摘要: 后门攻击是深度学习中最有效、最实用和最隐蔽的攻击之一。在本文中，我们考虑一种实际场景，即开发人员从第三方获得一个深度模型，并将其用作安全关键系统的一部分。开发人员希望在系统部署前检查该模型是否有潜在的后门。我们发现，现有的大多数检测技术都基于不适用于该场景的假设。在本文中，我们提出了一种在实际限制下检测后门的新型框架。我们通过演绎方式在可能的触发器空间中搜索来生成候选触发器。我们构建并优化了一种经过光滑处理的攻击成功率作为我们的搜索目标。从一种广泛的模板攻击类别开始，仅使用深度模型的前向传播，我们逆向工程了后门攻击。我们在广泛的攻击、模型和数据集上进行了广泛的评估，我们的方法在这几种设置中表现几乎完美。