LLM2D

摘要

arXiv:2501.14002v3 类型: replace-cross 摘要：对于大型语言模型（LLMs）来说，数学推理依然是一个极具挑战性的领域，因此开发了如LLEMMA、DeepSeekMath和Qwen2-Math等特定于数学的LLMs。这些模型通常遵循两阶段训练范式：预训练使用数学相关的语料库，然后使用问题数据集进行监督微调（SFT）。尽管取得了这些努力，通过持续预训练（CPT）获得的数学推理改进通常不如通过SFT获得的显著。本研究通过探索在预训练阶段的替代策略来解决这一差异，重点是使用解决问题的数据而非通用数学语料库。我们研究了三个主要的研究问题：（1）解决问题的数据在CPT期间是否能比通用数学语料库更有效地提升模型的数学推理能力？（2）来自同一数据源的合成数据同样有效吗，哪些合成方法最有效？（3）来自同一解决问题数据的在CPT阶段和SFT阶段获得的能力有何不同，是什么因素导致了这些差异？我们的研究结果表明，解决问题的数据在CPT期间显著提升了模型的数学能力，相较于通用数学语料库。我们还识别出了有效的数据合成方法，展示了导师放大合成方法的最佳性能。此外，虽然SFT促进了指令遵循能力，但在使用相同数据的情况下，它在CPT阶段的表现不如SPT，部分原因是它在处理更复杂的解决问题数据时学习能力较差。这些见解为优化LLMs的数学推理能力提供了宝贵指导，最终我们在Qwen2-Math的基础上开发出了一个强大的数学基础模型——MathGPT-8B。