LLM2D

摘要

arXiv:2501.04108v2 安全公告类型: 替换-交叉摘要：通过自我监督学习预训练的图像编码器可以作为通用特征提取器，用于构建各种下游任务的下游分类器。然而，许多研究显示，攻击者可以将一个特洛伊木马嵌入到编码器中，使得基于被污染编码器构建的多个下游分类器同时继承了特洛伊木马的行为。本文中，我们提出了 TrojanDec，这是一个数据无关的方法，用于识别并恢复嵌入触发器的测试输入。给定一个（被污染的或干净的）编码器和一个测试输入，TrojanDec 首先预测测试输入是否被污染。如果不是，测试输入将以正常方式进行处理以保持其实用价值。否则，测试输入将被进一步恢复以移除触发器。我们的广泛评估显示，TrojanDec 可以有效地从给定的测试输入中识别出（如果有）特洛伊木马，并在最新的特洛伊木马攻击下恢复它。我们进一步通过实验展示了我们的 TrojanDec 在性能上优于最先进的防御方法。