LLM2D

摘要

arXiv:2502.05714v1 类型: cross 摘要: 我们引入了形式化验证自动化编程进展标准，或FVAPPS，这是一个包含4715个样本的基准，用于编写程序并证明其正确性，这是最大的形式化验证基准，其中包括1083个经过精心选编和质量控制的样本。在此之前，APPS为编程谜题提供了一个基准和数据集，这些谜题需用Python完成，并通过单元测试进行检查，类似于软件工程行业中技术评估中所见的类型。在近期在交互定理证明基准方法的基础上，我们将单元测试推广到Lean 4定理中（即，使用Lean的"sorry"关键字）。在随机选取的100个样本中的406个定理上，Sonnet正确地证明了30%，Gemini正确地证明了18%。我们向机器学习和程序合成社区挑战，解决每个通用编程问题及其相关的正确性规范。基准数据集可在https://huggingface.co/datasets/quinn-dougherty/fvapps获取。