摘要
arXiv:2505.03809v1 类别: cross
摘要: 动态数据选择旨在通过无损性能来加速训练。然而,减少训练数据本质上会限制数据多样性,这可能会妨碍泛化的实现。尽管数据扩展现已广泛用于增强多样性,但通常没有与选择技术进行优化结合。因此,直接将这两种技术相结合无法充分利用它们的协同作用。为了解决这一挑战,我们提出了一种新颖的在线数据训练框架,这是首次将动态数据选择和扩展现统一起来,从而实现训练效率和增强性能。我们的方法估计每个样本的局部密度和多模态语义一致性联合分布,允许针对扩展现适宜的样本进行选择,同时抑制噪声或模糊数据的包含。这使得在不牺牲模型泛化能力的情况下显著减少数据集大小。实验结果表明,我们的方法在各种基准数据集和架构上超越了现有最先进的方法,例如,在无损性能的前提下,将ImageNet-1k的训练成本减少50%。此外,我们的方法增强了对噪声的抵抗能力和提高了模型的鲁棒性,进一步强化了其实用性在实际场景中的应用。