LLM2D
DRUPI:利用特权信息进行数据集缩减
DRUPI: Dataset Reduction Using Privileged Information
作者: Shaobo Wang, Yantai Yang, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Xuming Hu, Linfeng Zhang
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.01611v2

摘要

数据集缩减 (DR) 旨在从大型数据集中选择或提取样本到较小的子集,同时保持目标任务的性能。现有方法主要关注以与原始数据集相同格式(通常是输入数据和相应的标签)修剪或合成数据。然而,在 DR 设置中,我们发现可以合成超出数据-标签对的更多信息作为额外的学习目标来促进模型训练。在本文中,我们介绍了使用特权信息的数据集缩减 (DRUPI),它通过与缩减数据集一起合成特权信息来丰富 DR。这种特权信息可以采取特征标签或注意力标签的形式,提供辅助监督以改进模型学习。我们的研究结果表明,有效的特征标签必须在过度区分和过度多样化之间取得平衡,中等水平被证明是提高缩减数据集有效性的最佳选择。在 ImageNet、CIFAR-10/100 和 Tiny ImageNet 上进行的大量实验表明,DRUPI 可以与现有的数据集缩减方法无缝集成,从而显著提高性能。*代码将在论文被接收后发布。*