LLM2D

摘要

arXiv:2504.16891v1 项目类型: 新增摘要: 本文介绍了我们参加AI数学奥林匹克竞赛-进步奖(AIMO-2)的获胜提交方案。构建最先进的数学推理模型的关键在于三个方面。首先，我们创建了一个包含54万个高质量独特数学问题的大规模数据集，包括奥林匹克级别的问题及其320万个长推理解决方案。其次，我们开发了一种新颖的方法，通过迭代训练、生成和质量筛选将代码执行与长推理模型集成起来，从而生成170万个高质量工具集成推理解决方案。第三，我们创建了一个管道，用于训练模型从众多候选方案中选择最有前途的解决方案。我们展示了这样的生成性解决方案选择（GenSelect）可以显著改进多数投票基准。结合这些想法，我们训练了一系列模型，在数学推理基准测试中取得了最先进的成果。为了促进进一步的研究，我们在商业友好的许可下发布了我们的代码、模型和完整的OpenMathReasoning数据集。