摘要
arXiv:2504.12347v1 宣告类型: cross
摘要:大规模语言模型(LLMs)在教育环境中展现出了越来越大的潜力,然而其数学推理能力被认为仍在不断发展之中。本研究使用芬兰高中毕业考试评估了各类LLM的数学能力,该考试是高中教育中的一个高风险数字测试。初始测试显示出中等程度的表现,相当于中等分数,但随着语言模型的发展,后续评估显示出了显著的改进。令人惊讶的是,一些模型取得了近乎完美或完美的分数,达到了顶尖学生的表现水平,并且有资格被大学录取。我们的发现突显了LLMs在数学能力上的快速进步,并演示了它们在大规模教育评估中的潜在作用。