LLM2D
语言模型中数学推理能力的提升:解决问题数据、数据合成方法及训练阶段的影响
Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages
作者: Zui Chen, Tianqiao Liu, Mi Tian, Qing Tong, Weiqi Luo, Zitao Liu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2501.14002v3

摘要

arXiv:2501.14002v3 类型: replace-cross 摘要:对于大型语言模型(LLMs)来说,数学推理依然是一个极具挑战性的领域,因此开发了如LLEMMA、DeepSeekMath和Qwen2-Math等特定于数学的LLMs。这些模型通常遵循两阶段训练范式:预训练使用数学相关的语料库,然后使用问题数据集进行监督微调(SFT)。尽管取得了这些努力,通过持续预训练(CPT)获得的数学推理改进通常不如通过SFT获得的显著。本研究通过探索在预训练阶段的替代策略来解决这一差异,重点是使用解决问题的数据而非通用数学语料库。我们研究了三个主要的研究问题:(1)解决问题的数据在CPT期间是否能比通用数学语料库更有效地提升模型的数学推理能力?(2)来自同一数据源的合成数据同样有效吗,哪些合成方法最有效?(3)来自同一解决问题数据的在CPT阶段和SFT阶段获得的能力有何不同,是什么因素导致了这些差异?我们的研究结果表明,解决问题的数据在CPT期间显著提升了模型的数学能力,相较于通用数学语料库。我们还识别出了有效的数据合成方法,展示了导师放大合成方法的最佳性能。此外,虽然SFT促进了指令遵循能力,但在使用相同数据的情况下,它在CPT阶段的表现不如SPT,部分原因是它在处理更复杂的解决问题数据时学习能力较差。这些见解为优化LLMs的数学推理能力提供了宝贵指导,最终我们在Qwen2-Math的基础上开发出了一个强大的数学基础模型——MathGPT-8B。