摘要
arXiv:2501.14002v2 通告类型: replace-cross
摘要:数学推理仍然是大型语言模型(LLMs)的一个具有挑战性的领域,这促使开发了专门的数学LLMs,如LLEMMA、DeepSeekMath和Qwen2-Math等。这些模型通常遵循两阶段训练范式:使用数学相关语料进行预训练以及使用问题数据集进行监督微调(SFT)。尽管采取了这些努力,但在连续预训练(CPT)中获得的数学推理改进通常不如通过SFT获得的改进显著。本研究通过探讨预训练阶段的替代策略来解决这一差异,重点关注在CPT过程中使用问题解决数据而非通用数学语料。我们研究了三个主要的研究问题:(1) 在CPT过程中,问题解决数据是否比通用数学语料更有效地增强模型的数学推理能力?(2) 同一来源的合成数据是否同样有效,哪种合成方法最有效?(3) 同一问题解决数据在CPT和SFT阶段发展出的能力有何不同,哪些因素导致这些差异?我们的研究表明,问题解决数据在CPT过程中显著增强了模型的数学能力,与通用数学语料相比。我们还确定了有效的数据合成方法,证明了导师增强合成方法表现出最佳性能。此外,虽然SFT有助于指令遵循能力,但在相同数据下,它在CPT方面的表现不如SFT,部分原因是其对更具挑战性问题解决数据的学习能力较差。这些见解为优化LLMs的数学推理能力提供了宝贵的指导,最终我们开发了一个强大的数学基础模型,称为MathGPT-8B。