LLM2D

摘要

数据集蒸馏或浓缩旨在从大型数据集中生成一个更小但更具代表性的子集，这允许更有效地训练模型，同时在原始测试数据分布上进行评估以获得不错的性能。以往的解耦方法，如SRe$^2$L，只是简单地使用统一的梯度更新方案从高斯噪声中合成数据，而我们注意到，最初几次更新迭代将决定合成的最终轮廓，因此不合适的梯度更新策略可能会极大地影响最终生成的质量。为了解决这个问题，我们在数据合成过程中引入了一种简单而有效的基于课程数据增强（$\texttt{CDA}$）的全局到局部的梯度细化方法。该框架在ImageNet-1K和21K这两个大型数据集上都达到了目前已发表的最高精度，在IPC（每类图像数）为50时达到63.2%，在IPC为20时达到36.1%，使用224$\times$224的常规输入分辨率，收敛速度更快，合成时间更短。该模型在ImageNet-1K/21K上比SRe$^2$L、TESLA和MTT等现有最先进的方法提高了4%以上的Top-1精度，并且首次将与完整数据训练的模型之间的差距缩小到绝对值小于15%。此外，这项工作代表了在标准224$\times$224分辨率下，对更大规模ImageNet-21K数据集进行数据集蒸馏的首次成功。我们的代码和蒸馏后的ImageNet-21K数据集（20 IPC，2K恢复预算）可在https://github.com/VILA-Lab/SRe2L/tree/main/CDA获取。