LLM2D

摘要

情感分类（SC）通常面临资源匮乏的挑战，例如特定领域的上下文、不平衡的标签分布和少样本场景。扩散语言模型（LM）在文本数据增强（DA）方面的潜力尚未被探索，此外，文本DA方法在新样本的多样性和一致性之间难以平衡。大多数DA方法要么进行逻辑修改，要么使用语言模型重新表述原始序列中不太重要的标记。在SC的背景下，强烈的情感标记可能对整个序列的情感起关键作用。因此，与重新表述不太重要的上下文相反，我们提出了DiffusionCLS，以利用扩散LM捕捉领域内知识并通过重建与标签相关的强标记生成伪样本。这种方法确保了一致性和多样性之间的平衡，避免引入噪声并增强数据集的关键特征。DiffusionCLS还包含一个抗噪训练目标，帮助模型泛化。实验表明，我们的方法在各种资源匮乏的场景中，包括特定领域和通用领域问题上都有效。消融研究证实了我们框架模块的有效性，且可视化研究突出了最佳部署条件，强化了我们的结论。