摘要
大型语言模型 (LLM) 在许多数学推理基准测试中取得了令人瞩目的成功。然而,人们越来越担心,其中一些性能实际上反映了数据集污染,即与基准问题非常相似的数据泄露到训练数据中,而不是真正的推理能力。为了严格调查这一说法,我们制作了小学数学 1000 (GSM1k) 数据集。GSM1k 的设计旨在模仿已建立的 GSM8k 基准(衡量小学数学推理的黄金标准)的风格和复杂性。我们确保这两个基准在人类解答率、解决方案步骤数、答案数量级等重要指标上具有可比性。当在 GSM1k 上评估领先的开放源代码和闭源 LLM 时,我们观察到准确率下降高达 8%,几个模型系列显示出几乎所有模型规模都存在系统性过拟合的证据。进一步的分析表明,模型生成 GSM8k 例子的概率与其在 GSM8k 和 GSM1k 之间的性能差距之间存在正相关关系 (Spearman's r^2 = 0.36),这表明一些模型可能部分记忆了 GSM8k。然而,许多模型,特别是那些处于前沿的模型,几乎没有显示出过拟合的迹象,并且所有模型都广泛地展示了对保证不在其训练数据中的新数学问题的泛化能力。