LLM2D
大语言模型在数字乐园:快速测试其数理推理能力
Large Language Models in Numberland: A Quick Test of Their Numerical Reasoning Abilities
作者: Roussel Rahman
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00226v1

摘要

arXiv:2504.00226v1 宣告类型: 新增 摘要: 人类数学推理的一个核心要素是我们的数感——一种抽象理解数字及其关系的能力,这使我们能够使用有限的计算资源解决涉及庞大数字空间的问题。大型语言模型(LLMs)的数学推理经常通过奥林匹克挑战、几何学、文字问题和谜题等高层次的问题来测试,但它们的基础数感则较少被探索。我们引入了“Numberland”,这是一种包含100个问题的测试,用于评估基于LLM的代理的数值推理能力。该测试中的任务包括基本运算、高级计算(例如指数运算、复数)、质数检查和二十四点游戏,旨在测试基础技能及其在解决复杂和不确定问题中的整合能力。我们评估了五种基于LLM的代理:OpenAI的o1和o1-mini、Google的Gemini、Microsoft的Copilot和Anthropic的Claude。在前三项允许确定步骤的问题中,它们的得分为74-95%。在需要尝试搜索的二十四点游戏中,性能下降到10-73%。我们测试了准确率为73%的顶级二十四点解答器(o1)在25个更难题上的表现,其得分为27%,证实了搜索是瓶颈。这些结果,以及错误类型表明,基于LLM的数感较为脆弱,这在它们在挑战性基准测试中的表现强大时显得有些反常。LTM数值推理的局限性突显了简单、针对性的测试的重要性,以评估和解释LTM的数学技能,以确保安全使用。