LLM2D

摘要

arXiv:2502.15127v1 通知类型: 新摘要: 随着人工智能系统在教育领域的日益普及，一个根本性的挑战出现了：我们如何验证AI是否真正理解了学生的思想和推理方式？传统的评估方法，如衡量学习收益，需要进行长期研究，并受到众多变量的混淆。我们提出了一种基于两阶段图灵测试的新评估框架。在第一阶段，学生对问题提供开放式的回答，揭示自然的误解。在第二阶段，AI和人类专家根据每个学生的特定错误，生成新的相关问题的干扰项。通过分析学生选择AI生成的干扰项与人类专家生成的干扰项的比率是否相似，我们可以验证AI是否能够模型化学生认知。我们证明这种评估必须基于个体响应——未根据个体响应的评估方法仅针对常见误解。通过严谨的统计抽样理论，我们确立了以高置信度验证所需的具体要求。我们的研究将基于个体响应的干扰项生成置于检查AI系统核心能力模型学生思维的能力之中——这一能力使得个性化教学、反馈和评估成为可能。