LLM2D

摘要

arXiv:2504.21323v1 安全性类型: 横向摘要：知识蒸馏已成为现代机器学习系统中的基石，因其能够将大型复杂教师模型的知识转移到更高效的student模型而备受赞誉。传统上，这一过程被视为安全的，前提是假设教师模型是干净的。这种信念源于传统后门攻击依赖于被污染的训练数据和攻击者选择的标签，而这些因素并未参与蒸馏过程。相反，知识蒸馏使用干净教师模型的输出来指导student模型，本质上防止了识别或响应攻击者设定的后门触发器。在本文中，我们通过引入一种新颖的攻击方法挑战了这一假设，该方法战略性地将包含后门触发器的对抗样本污染蒸馏数据集。该技术可以在不损害教师模型完整性的情况下，秘密地攻破student模型。我们的创新方法代表了首次成功利用清洁教师模型中的知识蒸馏过程漏洞。通过在各种数据集和攻击设置下的广泛实验，我们展示了我们方法的稳健性、隐匿性和有效性。我们的研究结果揭示了之前未被发现的漏洞，并为未来旨在保护知识蒸馏过程免受后门攻击的研究铺平了道路。