LLM2D
暗蒸馏:无需访问原始数据即可污染浓缩数据集
Dark Distillation: Backdooring Distilled Datasets without Accessing Raw Data
作者: Ziyuan Yang, Ming Yan, Yi Zhang, Joey Tianyi Zhou
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2502.04229v1

摘要

arXiv:2502.04229v1 公告类型:交叉 摘要:数据集蒸馏(DD)通过将大数据集凝缩成较小的合成数据集来增强训练效率并减少带宽使用。它使模型能够在几乎与原始全数据集训练的模型相同的效果下实现性能,并已成为数据共享的广泛采用方法。然而,数据集蒸馏中的安全问题仍然很少被研究。现有研究通常假设恶意行为源自初始蒸馏过程中数据集所有者,通过在原始数据集中注入后门。与此相反,本工作首次针对一个更为现实和令人担忧的威胁进行了研究:攻击者可能拦截数据集分发过程,在凝缩数据集中注入后门,并重新分发给用户。虽然凝缩数据集之前被认为对后门攻击具有抵抗力,但我们证明它们仍然容易受到此类攻击的影响。此外,我们表明,攻击者甚至不需要访问任何原始数据就能成功注入后门。具体而言,我们的方法从使用凝缩数据集训练的模型中重建每个类别的概念架构型。然后在这些架构型中注入后门以更新凝缩数据集。此外,我们确保更新的数据集不仅保留了后门,还保留了原始优化轨迹,从而维持了原始数据集的知识。为此,设计了一种混合损失来结合沿良性优化轨迹的后门信息,确保先前学习的信息不会被遗忘。大量的实验表明,凝缩数据集高度容易受到后门攻击,且这种风险覆盖了各种原始数据集、蒸馏方法和下游训练策略。此外,我们的攻击方法高效,在某些情况下,能够在不到一分钟的时间内合成一个恶意凝缩数据集。