LLM2D
MathConstruct:用构造性证明挑战LLM推理
MathConstruct: Challenging LLM Reasoning with Constructive Proofs
作者: Mislav Balunovi\'c, Jasper Dekoninck, Nikola Jovanovi\'c, Ivo Petrov, Martin Vechev
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10197v1

摘要

arXiv:2502.10197v1 类别: 新论文 摘要:尽管大型语言模型(LLMs)在数学方面表现出色,但现有的数学基准测试存在显著的局限性。许多基准测试关注具有固定 ground-truth 答案的问题,且经常因为问题过于简单或可以通过猜测或记忆来解决而变得饱和。至关重要的是,这些基准测试仅涵盖了相关数学问题的狭窄子集。为解决这一研究空白,我们引入了 \mc,这是一个包含 126 个来自各种数学竞赛的具有挑战性问题的新基准测试,旨在针对需要构建具有特定属性的数学对象的构造性证明,这是一种广泛遇到的问题类型。这些证明特别适合 LLM 评估,因为可以通过简单的验证来检查解决方案的正确性。我们的自动化验证器还使 MathConstruct 能够生成问题变体,用于评估鲁棒性。最先进的 LLM 只能解决 54% 的 MathConstruct 问题,突显了其复杂性和在 LLM 评估中的重要性。