LLM2D
用自然语言处理自动评估数学归纳法证明
Autograding Mathematical Induction Proofs with Natural Language Processing
作者: Chenyan Zhao, Mariana Silva, Seth Poulsen
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2406.10268v2

摘要

arXiv:2406.10268v2 通告类型: 替换 摘要:在数学证明教育中,仍需一些干预措施,帮助学生学习如何编写数学证明。研究表明,及时反馈对学习新技能的学生非常有帮助。虽然多年来自然语言处理模型在涉及数学文本的任务上表现不佳,但最近自然语言处理的发展创造了机会,使我们可以为学生提供他们数学证明的即时反馈。本文中,我们提出了一套利用现有大型语言模型和其他机器学习技术进行训练的方法和模型,可以自动批改自由形式的数学证明。模型是通过对来自四个不同归纳证明问题的数据进行训练而获得的。我们使用了四种不同的强大大型语言模型来比较它们的性能,所有模型在不同程度上都达到了令人满意的表现。此外,我们招募了人工评分者对与训练数据相同的证明进行评分,并发现最佳评分模型的准确性也高于大多数人工评分者。随着这些评分模型的发展,我们创建并部署了用于归纳证明问题的自动评分器,并对学生们进行了用户研究。研究结果表明,学生们能够利用自动评分器的反馈显著改进他们的证明,但学生仍然不太相信人工智能自动评分器,而更信任人工评分者。未来的研究可以改进自动评分器的反馈,并找出帮助学生信任人工智能自动评分器的方法。