LLM2D

摘要

arXiv:2503.20925v1 安全类型：交叉摘要：深度学习模型容易受到涉及恶意攻击者通过在一小部分训练数据中添加触发器以造成分类错误的后门攻击。已经使用了各种触发器，包括无需攻击者操纵图像即可轻松实现的语义触发器。生成式AI的出现简化了受污染样本的生成。不同类型的触发器的有效防御至关重要。我们提出了一种名为原型引导后门防御（PGBD）的稳健的后处理防御方法，该方法适用于不同类型的触发器，包括以前未解决的语义触发器。PGBD 利用激活的几何空间中的位移来惩罚向触发器的方向移动。这通过后处理微调步骤中的新颖的净化损失来实现。几何方法可以容易地适用于所有类型的攻击。PGBD 在所有设置下都表现出更好的性能。我们还介绍了对名人面部图像的新语义攻击的第一个防御方案。项目页面：\[请点击此处\]。