摘要
我们介绍了 FrontierMath,这是一个由专家数学家精心设计和审核的数百个原创、极具挑战性的数学问题组成的基准测试集。这些问题涵盖了现代数学的大多数主要分支——从数论和实分析中计算密集型的问题到代数几何和范畴论中的抽象问题。解决一个典型的问题需要相关数学分支的研究人员花费数小时的努力,而对于难度较高的题目,则需要数天的时间。FrontierMath 使用新的、未发表的问题和自动验证来可靠地评估模型,同时最大限度地减少数据污染的风险。目前最先进的 AI 模型只能解决不到 2% 的问题,这揭示了 AI 能力与数学界实力之间巨大的差距。随着 AI 系统朝着专家级的数学能力发展,FrontierMath 提供了一个严格的测试平台来量化它们的进步。