摘要
arXiv:2502.01825v1 交叉公告类型:数据增强
摘要:数据增强已成为软件工程中的一种标准实践,用于应对有限或不平衡的数据集,特别是在测试分类和错误检测等专门领域中,数据可能稀缺。尽管在软件测试和调试应用中广泛使用了诸如SMOTE和基于突变的数据增强技术,但关于增强训练数据如何影响模型偏差的理解却不够严谨。特别是在使用增强数据集不仅进行训练,还要进行模型测试的情况下,考虑偏差尤为重要。通过全面研究易失败测试分类,我们展示了如何测试偏差,并理解增加测试集中的增强样本对模型评估可能产生的影响。