LLM2D

摘要

arXiv:2504.00638v2 Announce Type: replace-cross 摘要：机器学习模型对抗恶意攻击的准确性和鲁棒性受到训练数据质量、模型架构、训练过程和部署环境等多种因素的影响。近年来，训练集中重复数据，尤其是在语言模型中，引起了广泛关注。已有研究表明，去重能够提升语言模型的训练性能和准确性。虽然训练图像分类器的深度神经网络（DNN）中数据质量的重要性得到了广泛认可，但训练集中重复图像对模型泛化能力和性能的影响却很少受到关注。在本文中，我们填补了这一空白，并提供了一份全面的关于图像分类中重复数据影响的研究。我们的分析表明，训练集中存在重复图像不仅负面影响了模型训练的效率，还可能导致图像分类器的准确性降低。重复数据的影响尤其明显，尤其是在类别间重复数据不均匀的情况下，或者当重复数据无论是均匀分布还是不均匀分布出现在对抗训练模型的训练集中时。即使重复样本是以均匀的方式选择的，增加重复数据的数量并不会显著提高准确性。