LLM2D

摘要

arXiv:2505.04528v1 宣告类型: 新摘要: 作为一个看似自解释的任务，问题解决一直是科学和工程中的一个重要组成部分。然而，问题解决本身的通用且具体的表述仍然缺失。随着基于AI的问题解决代理的 recent 发展，过程级可验证的需求正在迅速增加但尚未得到充分开发。为填补这些空白，我们提出了一种问题解决的原理性表述，作为确定性马尔可夫决策过程；一种新型框架 FPS（形式化问题解决），利用现有的 FTP（形式化定理证明）环境进行过程验证的问题解决；以及 D-FPS（演绎 FPS），通过分离求解和答案验证以实现更好的人类对齐。框架的表达能力、正确性和完备性得到了证明。我们构建了三个问题解决基准：FormalMath500，MATH500 基准的一个形式化部分；MiniF2F-Solving 和 PutnamBench-Solving，FTP 基准 MiniF2F 和 PutnamBench 的适应版本。为了进行忠实、可解释且人类对齐的评估，我们提出了 RPE（受限命题等价性），这是一种通过形式验证确定答案正确性的符号方法。我们评估了四种流行的 FTP 模型和两种提示方法作为基线，在 FormalMath500 中最多解决了 23.77%，在 MiniF2F-Solving 中解决了 27.47%，在 PutnamBench-Solving 中解决了 0.31%。