LLM2D

摘要

arXiv:2502.08680v1 Announce Type: cross 摘要：大型语言模型（LLM）中的数学推理通常通过带有有限数值范围的基准进行评估，未能反映跨不同尺度的实际问题解决能力。此外，现有的大多数评估方法仅将模型输出与真实答案进行比较，隐藏了推理过程的洞察。为了解决这些局限性，我们引入了GSM-Ranges，这是一个源自GSM8K的数据集生成器，系统地对数学问题中的数值进行扰动，以评估模型在不同数值尺度下的稳健性。此外，我们提出了一种新的评分方法，能够区分逻辑错误和无逻辑错误，提供了一种超越计算准确性更精确的推理过程的评估方法。我们的实验表明，随着数值复杂性的增加，逻辑错误率显著提高，最多可达到14个百分点，这表明模型对于不在训练分布中的数值值进行推理时存在普遍弱点。此外，尽管模型在独立算术任务中表现出高准确性，但当计算嵌入在文字问题中时，其性能显著下降。这些发现提供了对大型语言模型数学推理能力的全面评估，并为提高语言模型数值泛化能力的未来研究方向提供了指导。