LLM2D

摘要

arXiv:2406.05826v2 安全类型: 交叉替换摘要：深度神经网络容易受到后门攻击的影响，攻击者可以通过在训练数据中插入恶意样本来操控模型预测。目前，仍然存在一个显著的挑战，即识别可疑的训练数据以揭示潜在的后门样本。在本文中，我们提出了一种新颖的方法——基于不确定性预测偏移后门检测（PSBD），该方法只需少量未标记的干净验证数据即可。PSBD 的灵感来自一个令人着迷的预测偏移（PS）现象，即在推理时启用了 Dropout 层时，中毒模型对干净数据的预测往往会远离真实标签而偏向某些其他标签，而后门样本则表现出较少的 PS。我们假设 PS 是由神经元偏差效应引起的，使神经元倾向于某些类别的特征。PSBD 通过计算预测偏移不确定性（PSU），即在模型推理过程中启用和禁用 Dropout 层时概率值的方差来识别后门的训练样本。进行了广泛实验以验证 PSBD 的有效性和效率，其性能在主流检测方法中处于领先地位。代码可在 https://github.com/WL-619/PSBD 获取。