LLM2D

摘要

arXiv:2410.13502v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）可以在高精度下解决算术文字题，但它们在应对更复杂问题时的泛化能力尚不清楚。这很难研究，因为（i）可供评估的数据中的大部分已经被训练中最强大的模型看过，且（ii）现有基准并不能捕捉到问题证明可能以各种方式无限复杂这一事实。在这篇论文中，我们提出了一种数据生成框架，用于评估LLMs在具有任意复杂算术证明问题上的能力，名为MathGAP。MathGAP 根据对其算术证明结构的规范生成问题陈述和链式推理跟踪，这使得关于证明树复杂度的系统研究成为可能。使用MathGAP，我们发现当证明变得更深、更宽时，LLMs 的性能显著下降。这一效应在复杂、非线性证明结构中更为明显，即使对于最强大的模型来说，这些结构也极具挑战性。模型还对句子顺序的简单变化敏感。然而，它们仍然有能力解决一些复杂的问题，这表明推理泛化是具有噪声的。