LLM2D

摘要

arXiv:2501.04108v2 广义类型: replace-cross 摘要：通过自我监督学习预训练的图像编码器可以作为通用特征提取器，用于构建各种下游任务的下游分类器。然而，许多研究表明，攻击者可以将恶意软件（特洛伊木马）嵌入到编码器中，从而使基于受感染编码器构建的多个下游分类器同时继承了特洛伊木马的行为。在这项工作中，我们提出了TrojanDec，这是一种首个无需数据的方法，用于识别和恢复嵌入触发器的测试输入。给定一个（受感染或干净的）编码器和一个测试输入，TrojanDec首先预测该测试输入是否受感染。如果不受感染，测试输入将以正常方式处理以保持其效用。否则，测试输入将被进一步恢复以移除触发器。广泛的评估表明，TrojanDec可以有效地从给定的测试输入中识别出任何嵌入的特洛伊木马，并在其下的先进特洛伊木马上恢复它。我们的实验进一步表明，我们的TrojanDec比最先进的防御方法表现出更优的效果。