LLM2D

摘要

arXiv:2502.07164v1 Announce Type: cross 摘要：越来越多的做法是使用合成数据训练大规模语言模型（LLMs）。通常，这种合成数据是由相同的或类似的LLMs生成的，而这些LLMs正是用来训练它们的。这引发了合成数据是否实际上会加剧某些“盲点”，并通过强化LLM已经编码的某些启发式方法来实现这一目标的疑问。在本文中，我们对Llama-2-7B-hf模型进行了模拟实验，以自然语言推理（NLI）任务为例。我们使用MultiNLI作为一般任务，使用HANS作为“盲点”任务，这是一种专门设计来衡量NLI中特定启发式策略存在的目标评估集。我们的目标是确定一般任务和盲点任务之间的性能差异是否会出现。我们的结果表明，合成数据并未以我们预期的方式强化盲点。具体来说，我们发现，在使用合成数据进行微调并不一定减少对启发式的使用，但也没有像我们假设的那样使其变得更糟。