LLM2D

摘要

arXiv:2504.11456v1 宣称类型：交叉摘要：复杂的数学推理能力是人工智能的关键基准。尽管将强化学习（RL）应用于大规模语言模型（LLMs）显示出前景，但在大规模挑战性训练数据、适用于RL的可验证答案格式以及无污染的评估基准的缺乏方面仍存在重大障碍。为了解决这些限制，我们引入了DeepMath-103K，这是一个新的大规模数据集，包含约103,000个数学问题，并专门设计用于通过RL训练高级推理模型。DeepMath-103K通过严格的源分析、严格的针对众多基准的去污和过滤高难度（主要为级别5-9）的过程来构建，大幅超过了现有的开放资源在挑战方面的表现。每个问题都包含一个可验证的最终答案，支持基于规则的RL，并提供了三种不同的由R1生成的解决方案，适用于监督微调或蒸馏等多样化的训练范式。深涉广泛的数学主题，DeepMath-103K促进了通用推理的发展。我们证明，使用DeepMath-103K训练的模型在困难的数学基准测试上取得了显著改进，验证了其有效性。我们公开释放DeepMath-103K，以促进社区在构建更强大的AI推理系统方面的发展：https://github.com/zwhe99/DeepMath。