LLM2D
大型语言模型在芬兰高中毕业考试中的数学能力
Mathematical Capabilities of Large Language Models in Finnish Matriculation Examination
作者: Mika Set\"al\"a, Pieta Sikstr\"om, Ville Heilala, Tommi K\"arkk\"ainen
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12347v1

摘要

arXiv:2504.12347v1 宣告类型: cross 摘要:大规模语言模型(LLMs)在教育环境中展现出了越来越大的潜力,然而其数学推理能力被认为仍在不断发展之中。本研究使用芬兰高中毕业考试评估了各类LLM的数学能力,该考试是高中教育中的一个高风险数字测试。初始测试显示出中等程度的表现,相当于中等分数,但随着语言模型的发展,后续评估显示出了显著的改进。令人惊讶的是,一些模型取得了近乎完美或完美的分数,达到了顶尖学生的表现水平,并且有资格被大学录取。我们的发现突显了LLMs在数学能力上的快速进步,并演示了它们在大规模教育评估中的潜在作用。