LLM2D

摘要

arXiv:2502.07640v3 宣传类型: replace-cross 摘要：我们介绍了一种开源语言模型Goedel-Prover，截至2025年4月5日，在数学问题自动形式证明方面达到了最先进的性能。该领域的一个关键挑战是正式化数学陈述和证明的稀缺性，我们通过以下方法解决了这一问题。首先，我们训练LLM将Numina数据集中的自然语言数学问题转换为等效的Lean 4形式声明。这一过程创建了包含164万条形式声明的Goedel-Pset-v1数据集。接下来，我们通过训练一系列证明器开发了一个大型形式证明数据集。每个新的证明器可以证明之前无法证明的许多陈述，这些新的证明被添加到下一个证明器的训练集中。最后，我们获得了包含Goedel-Pset-v1中超过80万条陈述证明的Goedel-Pset-v1-solved数据集。基于Goedel-Pset-v1-solved进行监督微调（SFT）的DeepSeek-Prover-V1.5-Base得到了Goedel-Prover-SFT，该模型在miniF2F上的成功率为57.6%（Pass@32），超过了之前领导者DeepSeek-Prover-V1.5-RL（使用SFT + RL训练的专有数据集）7.6%。在PutnamBench上，Goedel-Prover-SFT成功解决了7个问题（Pass@512），在排行榜上排名第一。我们详细讨论了我们的训练方法，强调了对Goedel-Prover强有力表现起关键作用的设计选择。进一步的RL训练（包括DPO）将Goedel-Prover-SFT在miniF2F上的成功率提高到超过60%（Pass@32）。我们还提供了关于我们训练方法和设计选择的详细讨论，以助力未来的研究。我们还完全开源了我们的代码、模型和数据集。此外，我们还开源了在Lean Workbook中的29,700个问题的形式证明，几乎是之前证明器解决的15,700个问题的两倍。