LLM2D

摘要

arXiv:2504.12185v1 类型: cross 摘要: 在各种自然语言处理（NLP）任务中，微调预训练语言模型（PLMs）往往会导致假相关问题，这会负面影响模型性能，特别是在处理分布外部数据时。为了解决这个问题，我们提出了SALAD（Structure Aware and LLM-driven Augmented Data），一种通过生成结构感知和反事实增强数据以增强模型鲁棒性和泛化能力的新方法。我们的方法利用标记方法生成结构感知的正样本，并利用大型语言模型（LLMs）生成具有多种句子模式的反事实负样本。通过对比学习，SALAD使模型能够专注于学习关键句子组件之间的结构关系，同时减少对假相关性的依赖。我们通过在三种任务——情感分类、性别歧视检测和自然语言推理——上的实验验证了我们的方法。结果表明，SALAD不仅提高了模型在不同环境下的鲁棒性和性能，还增强了对分布外部数据集和跨域场景的泛化能力。