LLM2D
前沿数学:一个用于评估 AI 高级数学推理能力的基准
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
作者: Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli J\"arviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.04872v4

摘要

我们介绍了 FrontierMath,这是一个由专家数学家精心设计和审核的数百个原创、极具挑战性的数学问题组成的基准测试集。这些问题涵盖了现代数学的大多数主要分支——从数论和实分析中计算密集型的问题到代数几何和范畴论中的抽象问题。解决一个典型的问题需要相关数学分支的研究人员花费数小时的努力,而对于难度较高的题目,则需要数天的时间。FrontierMath 使用新的、未发表的问题和自动验证来可靠地评估模型,同时最大限度地减少数据污染的风险。目前最先进的 AI 模型只能解决不到 2% 的问题,这揭示了 AI 能力与数学界实力之间巨大的差距。随着 AI 系统朝着专家级的数学能力发展,FrontierMath 提供了一个严格的测试平台来量化它们的进步。