摘要
arXiv:2502.11075v1 类型: cross
摘要: 大型语言模型(LLMs)在自然语言处理任务中展现出了令人印象深刻的性能,例如文本生成和语义理解。然而,在数值推理任务中,如基础算术、数值检索和大小比较等方面,它们的表现仍然出乎意料地糟糕。这一差距源于它们依赖于表面的统计模式,而不是理解数字作为连续量的本质。现有的基准测试主要集中在语言能力或结构化数学问题解决上,忽视了在真实世界场景中所需的最基本的数值推理能力。为了解决这一差距,我们提出了NumericBench,这是一个全面的基准测试,用于评估六个基本的数值能力:数字识别、算术运算、上下文检索、比较、总结和逻辑推理。NumericBench 包括从合成数字列表到抓取的实际数据集,以应对长上下文、噪声和多步推理等挑战。对最先进的LLMs(包括GPT-4和DeepSeek)进行广泛的实验揭示了数值推理方面的一贯薄弱环节,突显了提高数值敏感语言建模的迫切需要。基准测试在以下链接发布:https://github.com/TreeAI-Lab/NumericBench。