LLM2D
Kimina-Prover 预览:面向强化学习的大规模形式推理模型探索
Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning
作者: Haiming Wang, Mert Unsal, Xiaohan Lin, Mantas Baksys, Junqi Liu, Marco Dos Santos, Flood Sung, Marina Vinyes, Zhenzhe Ying, Zekai Zhu, Jianqiao Lu, Hugues de Saxc\'e, Bolton Bailey, Chendong Song, Chenjun Xiao, Dehao Zhang, Ebony Zhang, Frederick Pu, Han Zhu, Jiawei Liu, Jonas Bayer, Julien Michel, Longhui Yu, L\'eo Dreyfus-Schmidt, Lewis Tunstall, Luigi Pagani, Moreira Machado, Pauline Bourigault, Ran Wang, Stanislas Polu, Thibaut Barroyer, Wen-Ding Li, Yazhe Niu, Yann Fleureau, Yangyang Hu, Zhouliang Yu, Zihan Wang, Zhilin Yang, Zhengying Liu, Jia Li
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11354v1

摘要

arXiv:2504.11354v1 宣告类型: 新 摘要: 我们介绍了 Kimina-Prover 预览版,这是一种大型语言模型,其开创了一种新颖的推理驱动探索范式,用于形式定理证明,这一点在此次预览版中得到了展示。Kimina-Prover 通过对Qwen2.5-72B进行大规模强化学习训练,展示了在使用我们称为“形式推理模式”的结构化推理模式时在Lean 4证明生成方面的出色表现。这种方法使模型能够模仿人类在Lean中的问题解决策略,逐步生成并细化证明步骤。Kimina-Prover 在 miniF2F基准测试中达到了新的技术水平,得分率为80.7%(通过8192次)。除了基准测试性能的提升,我们的工作还提供了几个关键见解:(1) Kimina-Prover 具有高度的样本效率,在极少采样的情况下(通过1次)也能取得出色的结果,并能够随着计算预算的增加有效扩展,这源于其独特的推理模式和强化学习训练;(2) 我们展示了模型大小与性能的清晰扩展趋势,这是先前未在形式数学的神经定理证明者中观察到的;(3) 学习到的推理风格与传统搜索算法不同,显示出弥合形式验证和直观数学之间差距的潜力。我们开源了包含1.5B和7B参数的Kimina-Prover精简版本