LLM2D

摘要

数据集缩减 (DR) 旨在从大型数据集中选择或提取样本到较小的子集，同时保持目标任务的性能。现有方法主要关注以与原始数据集相同格式（通常是输入数据和相应的标签）修剪或合成数据。然而，在 DR 设置中，我们发现可以合成超出数据-标签对的更多信息作为额外的学习目标来促进模型训练。在本文中，我们介绍了使用特权信息的数据集缩减 (DRUPI)，它通过与缩减数据集一起合成特权信息来丰富 DR。这种特权信息可以采取特征标签或注意力标签的形式，提供辅助监督以改进模型学习。我们的研究结果表明，有效的特征标签必须在过度区分和过度多样化之间取得平衡，中等水平被证明是提高缩减数据集有效性的最佳选择。在 ImageNet、CIFAR-10/100 和 Tiny ImageNet 上进行的大量实验表明，DRUPI 可以与现有的数据集缩减方法无缝集成，从而显著提高性能。*代码将在论文被接收后发布。*