LLM2D

摘要

数据集蒸馏在CIFAR、MNIST和TinyImageNet等简单数据集上表现出色，但在更复杂的场景中却难以取得类似的结果。本文提出了一种名为EDF（强调判别特征）的数据集蒸馏方法，该方法利用Grad-CAM激活图增强合成图像中的关键判别区域。我们的方法受到一个关键观察结果的启发：在简单的数据集中，高激活区域通常占据图像的大部分，而在复杂的场景中，这些区域的大小要小得多。与以往在合成图像时平等对待所有像素的方法不同，EDF利用Grad-CAM激活图来增强高激活区域。从监督的角度来看，我们弱化了损失较低的监督信号，因为它们包含常见的模式。此外，为了帮助数据集蒸馏领域更好地探索复杂场景，我们精心选择了ImageNet-1K的十六个子集（八个简单子集和八个困难子集），构建了复杂数据集蒸馏（Comp-DD）基准。特别是，EDF在复杂的场景（如ImageNet-1K子集）中始终优于最先进的结果。希望这项工作能够激励更多研究人员改进数据集蒸馏的实用性和有效性。我们的代码和基准将在https://github.com/NUS-HPC-AI-Lab/EDF公开发布。