LLM2D

摘要

arXiv:2502.06905v1 类型: cross 摘要: 近期深度学习的发展严重依赖于大规模数据集，导致了大量的存储和训练成本。数据集剪枝旨在通过丢弃冗余样本来缓解这一需求。然而，许多现有方法需要在大量批次中训练一个使用完整数据集的模型，然后才能对数据集进行剪枝，这反而使得剪枝过程的成本超过了直接使用整个数据集训练模型的成本。为了解决这一限制，我们引入了一种考虑实例难度和预测不确定性的轻量级难易度和不确定性感知（DUAL）分数，旨在通过结合样本难度和预测不确定性，在早期训练阶段识别出重要的样本。为了应对极端剪枝情况下灾难性的准确率下降，我们进一步提出了一种基于Beta分布的比率自适应采样方法。在各种数据集和学习场景（如带有标签噪声和图像污染的图像分类，以及模型架构泛化）中进行的实验表明，我们的方法优于之前的最先进的（SOTA）方法。具体而言，在ImageNet-1k数据集上，与之前的方法相比，我们的方法将剪枝所需的时间成本降低了66%，同时达到了SOTA的准确率，具体而言，在90%的剪枝比例下，测试准确率达到60%。在CIFAR数据集上，时间成本降低了95%（仅剩余15%），同时保持了SOTA的性能。