LLM2D

摘要

现实世界中的形式化定理证明通常依赖于大量上下文信息，包括定义、引理、注释、文件结构和其他信息。我们引入了 miniCTX，它测试模型证明形式化数学定理的能力，这些定理依赖于训练期间未曾见过的新的上下文信息。miniCTX 包含来自真实 Lean 项目和教科书的定理，每个定理都与一个可能包含数万个标记的上下文相关联。模型的任务是在访问定理库中的代码（其中包含证明所需的上下文）的情况下证明一个定理。作为 miniCTX 的基线，我们测试了微调和提示方法，这些方法将定理证明与之前的上下文联系起来。这两种方法都显著优于仅依赖于状态信息的传统方法。我们发现，这种利用上下文的能力在之前诸如 miniF2F 之类的基准测试中并未体现出来。除了 miniCTX，我们还提供了 ntp-toolkit 用于自动提取和注释定理证明数据，使将新项目添加到 miniCTX 中变得容易，以确保上下文在训练期间未曾见过。miniCTX 为神经定理证明器提供了一个具有挑战性和现实性的评估。