LLM2D

摘要

arXiv:2505.08744v1 宣布类型: 新颖摘要: 为了推进大型语言模型（LLMs）的数学能力，DeepMath 团队启动了一个开源项目，旨在开发一个开放的数学 LLM 并系统地评估其数学创造力。本文代表了该项目的初始贡献。尽管最近在数学 LLM 发展方面的进步主要集中在推理技能上，这在从基础到本科级的数学任务基准测试中得到了体现，但这些模型的创造性能力受到了相对较少的关注，评估数据集也相对稀缺。为了解决这一差距，我们提出了一套数学创造力的评估标准，并引入了 DeepMath-Creative，这是一个全新的、高质量的基准，涵盖了代数、几何、分析及其他领域的构造性问题。我们使用这个数据集对主流 LLM 的创造性问题解决能力进行了系统评估。实验结果表明，即使在宽松评分标准下——强调核心解决方案要素，忽略小逻辑漏洞、不完整的证明或冗余解释等细节——性能最好的模型 O3 Mini 也仅能实现70%的准确率，主要是在基础本科级的构造性任务上。而对于更复杂的问题，性能急剧下降，模型无法提供实质性的开放问题解决策略。这些发现表明，尽管当前 LLMs 在熟悉和难度较低的问题上展现出一定程度的构造能力，这种表现可能更多来自于记忆模式的重组，而非真正的创造性洞察或新颖的综合。