摘要
arXiv:2502.07164v1 Announce Type: cross
摘要:越来越多的做法是使用合成数据训练大规模语言模型(LLMs)。通常,这种合成数据是由相同的或类似的LLMs生成的,而这些LLMs正是用来训练它们的。这引发了合成数据是否实际上会加剧某些“盲点”,并通过强化LLM已经编码的某些启发式方法来实现这一目标的疑问。在本文中,我们对Llama-2-7B-hf模型进行了模拟实验,以自然语言推理(NLI)任务为例。我们使用MultiNLI作为一般任务,使用HANS作为“盲点”任务,这是一种专门设计来衡量NLI中特定启发式策略存在的目标评估集。我们的目标是确定一般任务和盲点任务之间的性能差异是否会出现。我们的结果表明,合成数据并未以我们预期的方式强化盲点。具体来说,我们发现,在使用合成数据进行微调并不一定减少对启发式的使用,但也没有像我们假设的那样使其变得更糟。