LLM2D

摘要

arXiv:2406.05194v2 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在数学推理方面表现出令人印象深刻的性能。然而，尽管取得了这些成就，当前的评估主要局限于特定的数学主题，不清楚LLMs是否真正进行了推理。为解决这些差距，我们提出了数学主题树（MaTT）基准测试，这是一个具有挑战性和结构化的基准测试，涵盖了广泛数学主题的1,958个问题，每个问题都配有一个详细的分层主题链。使用MaTT基准测试评估了不同的LLMs，发现最先进的模型GPT-4在多项选择题中的准确率为54%。有趣的是，即使使用了思考链提示，我们也没有观察到明显的改进。此外，当不提供选项时，LLMs在问题上的准确率下降了24.2个百分点。对一系列主题的LLMs表现进行了进一步的详细分析，即使是在相同一般数学领域的密切相关子主题中，也发现了显著的差异。为了找出LLMs表现的原因，我们对手动评估了GPT-4在提供选项时生成的解释的完整性和正确性进行了评估。令人惊讶的是，我们发现，在模型提供正确答案的53.3%的情况下，伴随的解释被认为既完整又准确，即模型真正进行了推理。