摘要
arXiv:2410.13502v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)可以在高精度下解决算术文字题,但它们在应对更复杂问题时的泛化能力尚不清楚。这很难研究,因为(i)可供评估的数据中的大部分已经被训练中最强大的模型看过,且(ii)现有基准并不能捕捉到问题证明可能以各种方式无限复杂这一事实。在这篇论文中,我们提出了一种数据生成框架,用于评估LLMs在具有任意复杂算术证明问题上的能力,名为MathGAP。MathGAP 根据对其算术证明结构的规范生成问题陈述和链式推理跟踪,这使得关于证明树复杂度的系统研究成为可能。使用MathGAP,我们发现当证明变得更深、更宽时,LLMs 的性能显著下降。这一效应在复杂、非线性证明结构中更为明显,即使对于最强大的模型来说,这些结构也极具挑战性。模型还对句子顺序的简单变化敏感。然而,它们仍然有能力解决一些复杂的问题,这表明推理泛化是具有噪声的。