LLM2D

摘要

arXiv:2502.11671v1 类别: cross 摘要: 数据增强是自然语言处理(NLP)中的一个重要技术，通过生成多样化的样本来丰富训练数据集。这一过程对于提高NLP模型的稳健性和泛化能力至关重要。然而，仍然存在一个重大挑战：\textit{样本分布多样性关注不足}。大多数现有方法侧重于增加样本数量，而忽视了样本分布的多样性，这可能导致模型过拟合。为应对这一挑战，我们探索了数据增强对数据集多样性的影响，并提出了一种\textbf{\underline{D}}多样性-\textbf{\underline{o}}导向的数据\textbf{\underline{Aug}}增强框架(\textbf{DoAug})。% \(\mathscr{DoAug}\) 具体来说，我们利用一种多样性导向的微调方法训练一个LLM作为多样性的改写器，该改写器能够通过生成多样化的改写来增强文本数据集。然后，我们应用LLM改写器到一组高度信息性的样本选择核心集，并将改写内容与原始数据集成，以创建一个更具多样性的增强数据集。最后，我们在12个真实世界的文本数据集上进行了广泛的实验。结果表明，我们的微调LLM增强器在保持标签一致性的同时提高了多样性，从而增强了下游任务的稳健性和性能。特别是在性能上，它实现了平均 \(10.52\%\) 的提升，超过了亚军基线超过三个百分点。