摘要
arXiv:2502.10197v1 类别: 新论文
摘要:尽管大型语言模型(LLMs)在数学方面表现出色,但现有的数学基准测试存在显著的局限性。许多基准测试关注具有固定 ground-truth 答案的问题,且经常因为问题过于简单或可以通过猜测或记忆来解决而变得饱和。至关重要的是,这些基准测试仅涵盖了相关数学问题的狭窄子集。为解决这一研究空白,我们引入了 \mc,这是一个包含 126 个来自各种数学竞赛的具有挑战性问题的新基准测试,旨在针对需要构建具有特定属性的数学对象的构造性证明,这是一种广泛遇到的问题类型。这些证明特别适合 LLM 评估,因为可以通过简单的验证来检查解决方案的正确性。我们的自动化验证器还使 MathConstruct 能够生成问题变体,用于评估鲁棒性。最先进的 LLM 只能解决 54% 的 MathConstruct 问题,突显了其复杂性和在 LLM 评估中的重要性。