摘要
大型语言模型(LLM)在数学推理方面取得了显著进展,但由于缺乏对训练数据的访问,大多数最先进的数学推理 LLM 已经成为**闭源**。这种缺乏数据访问限制了研究人员理解不同数据合成和利用选择的影响。为了创建用于数学推理的优质微调(SFT)数据集,我们使用最近发布的\texttt{Llama3.1}模型系列对数据合成进行了仔细的消融实验。我们的实验表明:(a)解决方案格式很重要,过于冗长的解决方案对 SFT 性能有害,(b)由强教师生成的**数据**优于由弱学生模型生成的**策略内**数据,(c)SFT 对低质量解决方案具有鲁棒性,允许进行不精确的数据过滤,以及(d)问题多样性对于实现数据扩展增益至关重要。基于这些见解,我们创建了 OpenMathInstruct-2 数据集,该数据集包含 1400 万个问题-解决方案对(约 60 万个独特问题),使其规模几乎是以前最大的开源数学推理数据集的八倍。使用 OpenMathInstruct-2 微调 \texttt{Llama-3.1-8B-Base} 在 MATH 上的表现优于 \texttt{Llama3.1-8B-Instruct},绝对提升了 15.9%(51.9% $\rightarrow$ 67.8%)。最后,为了加速开源工作,我们以商业许可证发布了代码、微调模型和 OpenMathInstruct-2 数据集。