LLM2D

摘要

大型语言模型 (LLM) 在数学推理方面取得了显著进展，但由于缺乏训练数据，许多最先进的模型已成为闭源。数据访问受限阻碍了研究人员理解数据合成和利用的不同选择的影响。为了创建高质量的数学推理微调 (SFT) 数据集，我们使用最近发布的 \texttt{Llama3.1} 模型系列对数据合成进行了仔细的消融实验。我们的实验表明：(a) 解决方案格式很重要，过度冗长的解决方案对 SFT 性能有害，(b) 由强大教师生成的數據优于由弱学生模型生成的同等规模的數據，(c) SFT 对低质量解决方案具有鲁棒性，允许进行不精确的数据过滤，以及 (d) 问题多样性对于实现数据扩展增益至关重要。基于这些见解，我们创建了 OpenMathInstruct-2 数据集，其中包含 1400 万个问答对（约 60 万个独特问题），使其规模几乎是之前最大的开源数学推理数据集的八倍。使用 OpenMathInstruct-2 微调 \texttt{Llama-3.1-8B-Base} 在 MATH 上的性能优于 \texttt{Llama3.1-8B-Instruct}，绝对提升了 15.9%（51.9% $\rightarrow$ 67.8%）。最后，为了加速开源工作，我们以商业许可协议发布了代码、微调模型和 OpenMathInstruct-2 数据集。