LLM2D

摘要

arXiv:2502.10197v1 类别: 新论文摘要：尽管大型语言模型（LLMs）在数学方面表现出色，但现有的数学基准测试存在显著的局限性。许多基准测试关注具有固定 ground-truth 答案的问题，且经常因为问题过于简单或可以通过猜测或记忆来解决而变得饱和。至关重要的是，这些基准测试仅涵盖了相关数学问题的狭窄子集。为解决这一研究空白，我们引入了 \mc，这是一个包含 126 个来自各种数学竞赛的具有挑战性问题的新基准测试，旨在针对需要构建具有特定属性的数学对象的构造性证明，这是一种广泛遇到的问题类型。这些证明特别适合 LLM 评估，因为可以通过简单的验证来检查解决方案的正确性。我们的自动化验证器还使 MathConstruct 能够生成问题变体，用于评估鲁棒性。最先进的 LLM 只能解决 54% 的 MathConstruct 问题，突显了其复杂性和在 LLM 评估中的重要性。