摘要
arXiv:2502.11671v1 类别: cross
摘要: 数据增强是自然语言处理(NLP)中的一个重要技术,通过生成多样化的样本来丰富训练数据集。这一过程对于提高NLP模型的稳健性和泛化能力至关重要。然而,仍然存在一个重大挑战:\textit{样本分布多样性关注不足}。大多数现有方法侧重于增加样本数量,而忽视了样本分布的多样性,这可能导致模型过拟合。为应对这一挑战,我们探索了数据增强对数据集多样性的影响,并提出了一种\textbf{\underline{D}}多样性-\textbf{\underline{o}}导向的数据\textbf{\underline{Aug}}增强框架(\textbf{DoAug})。% \(\mathscr{DoAug}\) 具体来说,我们利用一种多样性导向的微调方法训练一个LLM作为多样性的改写器,该改写器能够通过生成多样化的改写来增强文本数据集。然后,我们应用LLM改写器到一组高度信息性的样本选择核心集,并将改写内容与原始数据集成,以创建一个更具多样性的增强数据集。最后,我们在12个真实世界的文本数据集上进行了广泛的实验。结果表明,我们的微调LLM增强器在保持标签一致性的同时提高了多样性,从而增强了下游任务的稳健性和性能。特别是在性能上,它实现了平均 \(10.52\%\) 的提升,超过了亚军基线超过三个百分点。