LLM2D
大规模语言模型中的数学推理:评估广泛的数值范围内逻辑和算术错误
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
作者: Safal Shrestha, Minwu Kim, Keith Ross
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08680v1

摘要

arXiv:2502.08680v1 Announce Type: cross 摘要:大型语言模型(LLM)中的数学推理通常通过带有有限数值范围的基准进行评估,未能反映跨不同尺度的实际问题解决能力。此外,现有的大多数评估方法仅将模型输出与真实答案进行比较,隐藏了推理过程的洞察。为了解决这些局限性,我们引入了GSM-Ranges,这是一个源自GSM8K的数据集生成器,系统地对数学问题中的数值进行扰动,以评估模型在不同数值尺度下的稳健性。此外,我们提出了一种新的评分方法,能够区分逻辑错误和无逻辑错误,提供了一种超越计算准确性更精确的推理过程的评估方法。我们的实验表明,随着数值复杂性的增加,逻辑错误率显著提高,最多可达到14个百分点,这表明模型对于不在训练分布中的数值值进行推理时存在普遍弱点。此外,尽管模型在独立算术任务中表现出高准确性,但当计算嵌入在文字问题中时,其性能显著下降。这些发现提供了对大型语言模型数学推理能力的全面评估,并为提高语言模型数值泛化能力的未来研究方向提供了指导。