摘要
arXiv:2505.08744v1 宣布类型: 新颖
摘要: 为了推进大型语言模型(LLMs)的数学能力,DeepMath 团队启动了一个开源项目,旨在开发一个开放的数学 LLM 并系统地评估其数学创造力。本文代表了该项目的初始贡献。尽管最近在数学 LLM 发展方面的进步主要集中在推理技能上,这在从基础到本科级的数学任务基准测试中得到了体现,但这些模型的创造性能力受到了相对较少的关注,评估数据集也相对稀缺。为了解决这一差距,我们提出了一套数学创造力的评估标准,并引入了 DeepMath-Creative,这是一个全新的、高质量的基准,涵盖了代数、几何、分析及其他领域的构造性问题。我们使用这个数据集对主流 LLM 的创造性问题解决能力进行了系统评估。实验结果表明,即使在宽松评分标准下——强调核心解决方案要素,忽略小逻辑漏洞、不完整的证明或冗余解释等细节——性能最好的模型 O3 Mini 也仅能实现70%的准确率,主要是在基础本科级的构造性任务上。而对于更复杂的问题,性能急剧下降,模型无法提供实质性的开放问题解决策略。这些发现表明,尽管当前 LLMs 在熟悉和难度较低的问题上展现出一定程度的构造能力,这种表现可能更多来自于记忆模式的重组,而非真正的创造性洞察或新颖的综合。