摘要
arXiv:2410.17193v2 更新类型: replace-cross
摘要:数据集蒸馏在CIFAR、MNIST和TinyImageNet等简单数据集上表现出强大的性能,但在更复杂的情景中却难以获得类似的结果。本文提出了一种名为EDF(强调鉴别性特征)的数据集蒸馏方法,该方法利用Grad-CAM激活图增强合成图像中的关键鉴别性区域。我们的方法灵感来源于一个关键观察:在简单数据集中,高激活区通常占据整个图像的大部分,而在复杂情景中,这些区域的大小要小得多。与之前的方法不同,EDF在合成图像时不会平等对待所有像素,而是利用Grad-CAM激活图来增强高激活区。从监督角度来看,我们降低了低损失的监督信号的权重,因为这些信号包含常见模式。此外,为了帮助DD社区更好地探索复杂情景,我们精心选择了ImageNet-1K的十六个子集,其中包括八个容易的情景和八个困难的情景,构建了Complex Dataset Distillation (Comp-DD) 基准。特别是,EDF在复杂情景中(如ImageNet-1K子集)始终优于最先进的结果。希望更多的研究人员能够受到启发,被鼓励去提高数据集蒸馏的实用性和有效性。我们的代码和基准将公开发布在 https://github.com/NUS-HPC-AI-Lab/EDF。