摘要
情感分类(SC)通常面临资源匮乏的挑战,例如特定领域的上下文、不平衡的标签分布和少样本场景。扩散语言模型(LM)在文本数据增强(DA)方面的潜力尚未被探索,此外,文本DA方法在新样本的多样性和一致性之间难以平衡。大多数DA方法要么进行逻辑修改,要么使用语言模型重新表述原始序列中不太重要的标记。在SC的背景下,强烈的情感标记可能对整个序列的情感起关键作用。因此,与重新表述不太重要的上下文相反,我们提出了DiffusionCLS,以利用扩散LM捕捉领域内知识并通过重建与标签相关的强标记生成伪样本。这种方法确保了一致性和多样性之间的平衡,避免引入噪声并增强数据集的关键特征。DiffusionCLS还包含一个抗噪训练目标,帮助模型泛化。实验表明,我们的方法在各种资源匮乏的场景中,包括特定领域和通用领域问题上都有效。消融研究证实了我们框架模块的有效性,且可视化研究突出了最佳部署条件,强化了我们的结论。