LLM2D

摘要

arXiv:2502.11687v1 Announce Type: 横向摘要：后门攻击将隐藏功能嵌入深度神经网络（DNN）中，在特定输入下触发恶意行为。高级防御措施监控异常的DNN推断以检测此类攻击。然而，隐藏的后门通过保持低预部署攻击成功率（ASR）并在部署后通过机器遗忘恢复高ASR来逃避检测。现有的隐藏后门往往受限于需要白盒或黑盒访问或辅助数据，这在这些访问或数据不可用时限制了其实用性。本文介绍了ReVeil，一种针对DNN训练流水线中的数据收集阶段的隐藏后门攻击，不需要模型访问或辅助数据。ReVeil在四个数据集和四种触发模式下保持低预部署ASR，并成功逃避三种流行的方法的检测，并通过机器遗忘在部署后恢复高ASR。