摘要
arXiv:2502.15127v1 通知类型: 新
摘要: 随着人工智能系统在教育领域的日益普及,一个根本性的挑战出现了:我们如何验证AI是否真正理解了学生的思想和推理方式?传统的评估方法,如衡量学习收益,需要进行长期研究,并受到众多变量的混淆。我们提出了一种基于两阶段图灵测试的新评估框架。在第一阶段,学生对问题提供开放式的回答,揭示自然的误解。在第二阶段,AI和人类专家根据每个学生的特定错误,生成新的相关问题的干扰项。通过分析学生选择AI生成的干扰项与人类专家生成的干扰项的比率是否相似,我们可以验证AI是否能够模型化学生认知。我们证明这种评估必须基于个体响应——未根据个体响应的评估方法仅针对常见误解。通过严谨的统计抽样理论,我们确立了以高置信度验证所需的具体要求。我们的研究将基于个体响应的干扰项生成置于检查AI系统核心能力模型学生思维的能力之中——这一能力使得个性化教学、反馈和评估成为可能。