LLM2D

摘要

arXiv:2505.03809v1 类别: cross 摘要: 动态数据选择旨在通过无损性能来加速训练。然而，减少训练数据本质上会限制数据多样性，这可能会妨碍泛化的实现。尽管数据扩展现已广泛用于增强多样性，但通常没有与选择技术进行优化结合。因此，直接将这两种技术相结合无法充分利用它们的协同作用。为了解决这一挑战，我们提出了一种新颖的在线数据训练框架，这是首次将动态数据选择和扩展现统一起来，从而实现训练效率和增强性能。我们的方法估计每个样本的局部密度和多模态语义一致性联合分布，允许针对扩展现适宜的样本进行选择，同时抑制噪声或模糊数据的包含。这使得在不牺牲模型泛化能力的情况下显著减少数据集大小。实验结果表明，我们的方法在各种基准数据集和架构上超越了现有最先进的方法，例如，在无损性能的前提下，将ImageNet-1k的训练成本减少50%。此外，我们的方法增强了对噪声的抵抗能力和提高了模型的鲁棒性，进一步强化了其实用性在实际场景中的应用。