摘要
arXiv:2504.16891v1 项目类型: 新增
摘要: 本文介绍了我们参加AI数学奥林匹克竞赛-进步奖(AIMO-2)的获胜提交方案。构建最先进的数学推理模型的关键在于三个方面。首先,我们创建了一个包含54万个高质量独特数学问题的大规模数据集,包括奥林匹克级别的问题及其320万个长推理解决方案。其次,我们开发了一种新颖的方法,通过迭代训练、生成和质量筛选将代码执行与长推理模型集成起来,从而生成170万个高质量工具集成推理解决方案。第三,我们创建了一个管道,用于训练模型从众多候选方案中选择最有前途的解决方案。我们展示了这样的生成性解决方案选择(GenSelect)可以显著改进多数投票基准。结合这些想法,我们训练了一系列模型,在数学推理基准测试中取得了最先进的成果。为了促进进一步的研究,我们在商业友好的许可下发布了我们的代码、模型和完整的OpenMathReasoning数据集。