LLM2D
LLMs 不是智能的思想者:引入数学主题树基准测试以全面评估 LLMS
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs
作者: Arash Gholami Davoodi, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2406.05194v2

摘要

arXiv:2406.05194v2 Announce Type: replace-cross 摘要:大规模语言模型(LLMs)在数学推理方面表现出令人印象深刻的性能。然而,尽管取得了这些成就,当前的评估主要局限于特定的数学主题,不清楚LLMs是否真正进行了推理。为解决这些差距,我们提出了数学主题树(MaTT)基准测试,这是一个具有挑战性和结构化的基准测试,涵盖了广泛数学主题的1,958个问题,每个问题都配有一个详细的分层主题链。使用MaTT基准测试评估了不同的LLMs,发现最先进的模型GPT-4在多项选择题中的准确率为54%。有趣的是,即使使用了思考链提示,我们也没有观察到明显的改进。此外,当不提供选项时,LLMs在问题上的准确率下降了24.2个百分点。对一系列主题的LLMs表现进行了进一步的详细分析,即使是在相同一般数学领域的密切相关子主题中,也发现了显著的差异。为了找出LLMs表现的原因,我们对手动评估了GPT-4在提供选项时生成的解释的完整性和正确性进行了评估。令人惊讶的是,我们发现,在模型提供正确答案的53.3%的情况下,伴随的解释被认为既完整又准确,即模型真正进行了推理。