LLM2D

摘要

传统的**数据集蒸馏**主要关注图像表示，而往往忽略了标签的重要作用。在这项研究中，我们介绍了**标签增强数据集蒸馏 (LADD)**，这是一种新的数据集蒸馏框架，通过标签增强来增强数据集蒸馏。LADD 对每个合成图像进行子采样，生成额外的密集标签以捕获丰富的语义。这些密集标签仅需增加 2.5% 的存储空间（ImageNet 子集），就能带来显著的性能提升，提供强大的学习信号。我们的标签生成策略可以补充现有的数据集蒸馏方法，显著提高其训练效率和性能。实验结果表明，LADD 在计算开销和准确率方面优于现有方法。凭借三种高性能数据集蒸馏算法，LADD 在准确率方面平均实现了 14.9% 的显著提升。此外，我们的方法在各种数据集、蒸馏超参数和算法中都证明了其有效性。最后，我们的方法提高了蒸馏数据集的跨架构鲁棒性，这在应用场景中至关重要。