LLM2D
DeepMath-创造性:评估大型语言模型数学创造性的一个基准
DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models
作者: Xiaoyang Chen, Xinan Dai, Yu Du, Qian Feng, Naixu Guo, Tingshuo Gu, Yuting Gao, Yingyi Gao, Xudong Han, Xiang Jiang, Yilin Jin, Hongyi Lin, Shisheng Lin, Xiangnan Li, Yuante Li, Yixing Li, Zhentao Lai, Zilu Ma, Yingrong Peng, Jiacheng Qian, Hao-Yu Sun, Jianbo Sun, Zirui Wang, Siwei Wu, Zian Wang, Bin Xu, Jianghao Xu, Yiyang Yu, Zichuan Yang, Hongji Zha, Ruichong Zhang
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.08744v1

摘要

arXiv:2505.08744v1 宣布类型: 新颖 摘要: 为了推进大型语言模型(LLMs)的数学能力,DeepMath 团队启动了一个开源项目,旨在开发一个开放的数学 LLM 并系统地评估其数学创造力。本文代表了该项目的初始贡献。尽管最近在数学 LLM 发展方面的进步主要集中在推理技能上,这在从基础到本科级的数学任务基准测试中得到了体现,但这些模型的创造性能力受到了相对较少的关注,评估数据集也相对稀缺。为了解决这一差距,我们提出了一套数学创造力的评估标准,并引入了 DeepMath-Creative,这是一个全新的、高质量的基准,涵盖了代数、几何、分析及其他领域的构造性问题。我们使用这个数据集对主流 LLM 的创造性问题解决能力进行了系统评估。实验结果表明,即使在宽松评分标准下——强调核心解决方案要素,忽略小逻辑漏洞、不完整的证明或冗余解释等细节——性能最好的模型 O3 Mini 也仅能实现70%的准确率,主要是在基础本科级的构造性任务上。而对于更复杂的问题,性能急剧下降,模型无法提供实质性的开放问题解决策略。这些发现表明,尽管当前 LLMs 在熟悉和难度较低的问题上展现出一定程度的构造能力,这种表现可能更多来自于记忆模式的重组,而非真正的创造性洞察或新颖的综合。