LLM2D

摘要

arXiv:2504.12347v1 宣告类型: cross 摘要：大规模语言模型（LLMs）在教育环境中展现出了越来越大的潜力，然而其数学推理能力被认为仍在不断发展之中。本研究使用芬兰高中毕业考试评估了各类LLM的数学能力，该考试是高中教育中的一个高风险数字测试。初始测试显示出中等程度的表现，相当于中等分数，但随着语言模型的发展，后续评估显示出了显著的改进。令人惊讶的是，一些模型取得了近乎完美或完美的分数，达到了顶尖学生的表现水平，并且有资格被大学录取。我们的发现突显了LLMs在数学能力上的快速进步，并演示了它们在大规模教育评估中的潜在作用。