LLM2D

摘要

arXiv:2504.00843v1 通告类型: 新摘要: 数学学习涉及掌握内容知识以及理解和应用这些知识的认知处理能力。自动数学评估主要侧重于通过发现文本证据（如具体数字、公式和陈述）来评估学生的内容知识展示。最近，在大型语言模型（LLMs）解决问题、图像识别和推理能力方面取得的进展显示出对学生认知技能进行精细评估的潜力。诊断认知技能需要超越文本证据推断学生的思维过程，这是基于LLM的自动评估中一个尚未充分探索的任务。在本文中，我们研究了当前最先进的LLMs如何诊断学生的数学认知技能。我们构建了MathCog，这是一个新的基准数据集，包含110个中学数学问题的学生回答，每个问题由教师详细诊断并基于认知技能检查表注解。使用MathCog，我们评估了来自不同供应商的16种封闭和开放式LLM，包括不同模型大小的版本。我们的评估显示，即使最先进的LLMs也难以应对这个任务，所有F1分数均低于0.5，且在错误情况下表现出强烈的虚假自信（$r_s=.617$）。我们还发现，模型大小与诊断性能正相关（$r_s=.771$）。最后，我们讨论了这些发现的意义、过高的自信心问题以及改进自动认知技能诊断的方向。