LLM2D
数据增强综述
A Comprehensive Survey on Data Augmentation
作者: Zaitian Wang, Pengfei Wang, Kunpeng Liu, Pengyang Wang, Yanjie Fu, Chang-Tien Lu, Charu C. Aggarwal, Jian Pei, Yuanchun Zhou
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2405.09591v3

摘要

arXiv:2405.09591v3 更新类型: replace-cross 摘要: 数据增强是一种通过操作现有的数据样本生成高质量人工数据的技术。通过利用数据增强技术,AI 模型可以在涉及稀缺或不均衡数据集的任务中实现显著增强的应用性,从而大幅提高AI 模型的泛化能力。现有的文献综述仅集中于特定类型的单一模态数据,并从模态特定和操作中心的角度对这些方法进行分类,缺乏对多种模态数据增强方法的一致总结,限制了对现有数据样本如何服务于数据增强过程的理解。为了解决这一差距,我们提出了一个更为启发性的分类法,涵盖不同常见数据模态的数据增强技术。具体而言,从数据中心的角度出发,本文提出了一个不依赖于模态的数据增强分类法,通过研究数据样本之间固有的关系,包括单一样本、配对样本和群体样本的数据增强方法。此外,我们通过统一的归纳方法对五种数据模态中的数据增强方法进行了分类。