LLM2D

摘要

arXiv:2410.12881v2 公告类型: 替换摘要：合成数据在增强前期训练数据质量并进而提高下游任务准确率方面在近期的大规模语言模型（LLMs）中得到了广泛应用。然而，这些方法在复杂、多跳和数学推理任务方面存在不足，因为合成数据通常无法为现有的原始语料库增加补充知识。在本文中，我们提出了一种新型的大型且多样的数学启发的合成对话（MIND）生成方法，以提高LLMs的数学推理能力。具体而言，通过MIND，我们基于OpenWebMath (OWM)生成合成对话，从而形成一个新的数学语料库，MIND-OWM。我们的实验结果显示，在不同对话设置下，融入对话参与者之间的知识差距对于生成高质量的数学数据至关重要。我们还识别出一种有效的方法，在前期训练过程中格式化和整合合成数据和原始数据，以最大化数学推理的收益，强调重构原始数据的必要性，而不仅仅是原封不动地使用。与仅使用原始数据前期训练相比，基于MIND-OWM前期训练的模型在数学推理方面显示出显著提升（GSM8K: +13.42%， MATH: +2.30%），包括在专门知识（MMLU: +4.55%， MMLU-STEM: +4.28%）和通用推理任务（GENERAL REASONING: +2.51%）中的表现更加优异。