LLM2D

摘要

数据集压缩是数据中心学习中的一个概念，它能有效地将原始数据集的关键属性转移到合成版本中，同时保持多样性和真实性。这种方法显著提高了模型训练效率，并且可以适应多个应用领域。以往的数据集压缩方法面临着挑战：一些方法计算成本高，限制了其在更大数据集上的可扩展性（例如，MTT、DREAM 和 TESLA），而另一些方法则局限于不太理想的设计空间，这可能会阻碍潜在的改进，尤其是在较小的数据集上（例如，SRe2L、G-VBSM 和 RDED）。为了解决这些局限性，我们提出了一种全面的设计框架，其中包含一些具体有效的策略，例如实施软类别感知匹配和调整学习率计划。这些策略以经验证据和理论支持为基础。我们由此产生的方法，即阐明数据集压缩（EDC），为小规模和大规模数据集压缩建立了基准。在我们的测试中，EDC 实现了最先进的准确性，在 ImageNet-1k 上使用 ResNet-18 模型，IPC 为 10 时达到 48.6%，这对应于 0.78% 的压缩率。该性能分别超过了 SRe2L、G-VBSM 和 RDED 27.3%、17.2% 和 6.6%。