LLM2D

摘要

arXiv:2502.11075v1 类型: cross 摘要: 大型语言模型（LLMs）在自然语言处理任务中展现出了令人印象深刻的性能，例如文本生成和语义理解。然而，在数值推理任务中，如基础算术、数值检索和大小比较等方面，它们的表现仍然出乎意料地糟糕。这一差距源于它们依赖于表面的统计模式，而不是理解数字作为连续量的本质。现有的基准测试主要集中在语言能力或结构化数学问题解决上，忽视了在真实世界场景中所需的最基本的数值推理能力。为了解决这一差距，我们提出了NumericBench，这是一个全面的基准测试，用于评估六个基本的数值能力：数字识别、算术运算、上下文检索、比较、总结和逻辑推理。NumericBench 包括从合成数字列表到抓取的实际数据集，以应对长上下文、噪声和多步推理等挑战。对最先进的LLMs（包括GPT-4和DeepSeek）进行广泛的实验揭示了数值推理方面的一贯薄弱环节，突显了提高数值敏感语言建模的迫切需要。基准测试在以下链接发布：https://github.com/TreeAI-Lab/NumericBench。