LLM2D
基于模板的数据生成方法训练和评估语言模型
Training and Evaluating Language Models with Template-based Data Generation
作者: Yifan Zhang
发布日期: 11/28/2024
arXiv ID: oai:arXiv.org:2411.18104v1

摘要

大型语言模型(LLM),例如GPT-3、PaLM和Llama的快速发展,已经显著改变了自然语言处理领域,在理解和生成语言方面展现出非凡的能力。然而,这些模型往往难以胜任需要复杂推理的任务,尤其是在数学问题求解方面,部分原因是缺乏用于训练复杂推理能力的大规模、高质量、特定领域的训练数据集。为了解决这一限制,我们引入了基于模板的数据生成 (TDG) 方法,这是一种利用大型语言模型 (GPT-4) 自动生成参数化元模板的新方法,然后利用这些元模板合成大量高质量的问题和解答。利用TDG,我们创建了TemplateMath第一部分:TemplateGSM,这是一个包含超过700万个合成生成的针对小学数学问题的数据库——每个问题都附带基于代码和自然语言的解答——并且具有生成无限数量问题的潜力。该数据集缓解了大规模数学数据集的稀缺性,并作为预训练、微调和评估大型语言模型在数学推理方面的宝贵资源。我们的方法不仅能够生成几乎无限的数据,而且还通过使用GPT-4进行元模板生成将数据增强提升到一个新的水平,从而确保问题结构的多样性和高质量。TemplateMath第一部分:TemplateGSM数据集已公开发布在https://huggingface.co/datasets/math-ai/TemplateGSM。代码可在https://github.com/iiis-ai/TemplateMath获取。