LLM2D

摘要

arXiv:2504.00638v1 类型: cross 摘要：机器学习模型对抗恶意攻击的准确性和稳健性受到了训练数据质量、模型架构、训练过程和部署环境等多种因素的影响。近年来，训练集中重复数据，尤其是在语言模型中，引起了广泛关注。已有研究表明，去重可以提高语言模型的训练性能和模型准确性。尽管人们普遍认识到训练图像分类器深度神经网络(DNN)时数据质量的重要性，但训练集中重复图像对模型泛化能力和性能的影响却受到了较少的关注。在本文中，我们填补了这一空白，并对图像分类中的重复项影响进行了全面的研究。我们的分析表明，训练集中存在重复图像不仅会负面影响模型的训练效率，还可能导致图像分类器的准确性降低。重复数据对准确性的影响特别明显，尤其是在类间重复数据不均匀分布时，或在对抗训练模型的训练集中出现重复数据时，无论是均匀还是非均匀。即使重复样本按照均匀方式选择，增加重复量也不会显著提高准确性。