LLM2D

摘要

大型语言模型（LLM），例如GPT-3、PaLM和Llama的快速发展，已经显著改变了自然语言处理领域，在理解和生成语言方面展现出非凡的能力。然而，这些模型往往难以胜任需要复杂推理的任务，尤其是在数学问题求解方面，部分原因是缺乏用于训练复杂推理能力的大规模、高质量、特定领域的训练数据集。为了解决这一限制，我们引入了基于模板的数据生成 (TDG) 方法，这是一种利用大型语言模型 (GPT-4) 自动生成参数化元模板的新方法，然后利用这些元模板合成大量高质量的问题和解答。利用TDG，我们创建了TemplateMath第一部分：TemplateGSM，这是一个包含超过700万个合成生成的针对小学数学问题的数据库——每个问题都附带基于代码和自然语言的解答——并且具有生成无限数量问题的潜力。该数据集缓解了大规模数学数据集的稀缺性，并作为预训练、微调和评估大型语言模型在数学推理方面的宝贵资源。我们的方法不仅能够生成几乎无限的数据，而且还通过使用GPT-4进行元模板生成将数据增强提升到一个新的水平，从而确保问题结构的多样性和高质量。TemplateMath第一部分：TemplateGSM数据集已公开发布在https://huggingface.co/datasets/math-ai/TemplateGSM。代码可在https://github.com/iiis-ai/TemplateMath获取。