摘要
数据集压缩是数据中心学习中的一个概念,它能有效地将原始数据集的关键属性转移到合成版本中,同时保持多样性和真实性。这种方法显著提高了模型训练效率,并且可以适应多个应用领域。以往的数据集压缩方法面临着挑战:一些方法计算成本高,限制了其在更大数据集上的可扩展性(例如,MTT、DREAM 和 TESLA),而另一些方法则局限于不太理想的设计空间,这可能会阻碍潜在的改进,尤其是在较小的数据集上(例如,SRe2L、G-VBSM 和 RDED)。为了解决这些局限性,我们提出了一种全面的设计框架,其中包含一些具体有效的策略,例如实施软类别感知匹配和调整学习率计划。这些策略以经验证据和理论支持为基础。我们由此产生的方法,即阐明数据集压缩(EDC),为小规模和大规模数据集压缩建立了基准。在我们的测试中,EDC 实现了最先进的准确性,在 ImageNet-1k 上使用 ResNet-18 模型,IPC 为 10 时达到 48.6%,这对应于 0.78% 的压缩率。该性能分别超过了 SRe2L、G-VBSM 和 RDED 27.3%、17.2% 和 6.6%。