摘要
arXiv:2406.05194v2 Announce Type: replace-cross
摘要:大规模语言模型(LLMs)在数学推理方面表现出令人印象深刻的性能。然而,尽管取得了这些成就,当前的评估主要局限于特定的数学主题,不清楚LLMs是否真正进行了推理。为解决这些差距,我们提出了数学主题树(MaTT)基准测试,这是一个具有挑战性和结构化的基准测试,涵盖了广泛数学主题的1,958个问题,每个问题都配有一个详细的分层主题链。使用MaTT基准测试评估了不同的LLMs,发现最先进的模型GPT-4在多项选择题中的准确率为54%。有趣的是,即使使用了思考链提示,我们也没有观察到明显的改进。此外,当不提供选项时,LLMs在问题上的准确率下降了24.2个百分点。对一系列主题的LLMs表现进行了进一步的详细分析,即使是在相同一般数学领域的密切相关子主题中,也发现了显著的差异。为了找出LLMs表现的原因,我们对手动评估了GPT-4在提供选项时生成的解释的完整性和正确性进行了评估。令人惊讶的是,我们发现,在模型提供正确答案的53.3%的情况下,伴随的解释被认为既完整又准确,即模型真正进行了推理。