LLM2D

摘要

arXiv:2504.00226v1 宣告类型: 新增摘要: 人类数学推理的一个核心要素是我们的数感——一种抽象理解数字及其关系的能力，这使我们能够使用有限的计算资源解决涉及庞大数字空间的问题。大型语言模型（LLMs）的数学推理经常通过奥林匹克挑战、几何学、文字问题和谜题等高层次的问题来测试，但它们的基础数感则较少被探索。我们引入了“Numberland”，这是一种包含100个问题的测试，用于评估基于LLM的代理的数值推理能力。该测试中的任务包括基本运算、高级计算（例如指数运算、复数）、质数检查和二十四点游戏，旨在测试基础技能及其在解决复杂和不确定问题中的整合能力。我们评估了五种基于LLM的代理：OpenAI的o1和o1-mini、Google的Gemini、Microsoft的Copilot和Anthropic的Claude。在前三项允许确定步骤的问题中，它们的得分为74-95%。在需要尝试搜索的二十四点游戏中，性能下降到10-73%。我们测试了准确率为73%的顶级二十四点解答器（o1）在25个更难题上的表现，其得分为27%，证实了搜索是瓶颈。这些结果，以及错误类型表明，基于LLM的数感较为脆弱，这在它们在挑战性基准测试中的表现强大时显得有些反常。LTM数值推理的局限性突显了简单、针对性的测试的重要性，以评估和解释LTM的数学技能，以确保安全使用。