LLM2D
评估AI生成问题与认知框架在教育评估中的一致性
Assessing AI-Generated Questions' Alignment with Cognitive Frameworks in Educational Assessment
作者: Antoun Yaacoub, J\'er\^ome Da-Rugna, Zainab Assaghir
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14232v1

摘要

arXiv:2504.14232v1 宣传类型: 新 摘要:本研究评估了将布卢姆分类法整合到OneClickQuiz中,OneClickQuiz是一个基于人工智能(AI)的插件,用于自动化Moodle中的选择题(MCQ)生成。布卢姆分类法提供了一种结构化的框架,用于将教育目标按认知层次进行分类。我们的研究探讨了将此分类法整合到AI生成的问题中,是否能提高与特定认知目标的对齐度。我们开发了一个包含3691个问题的数据集,这些问题根据布卢姆等级进行了分类,并使用了多种分类模型——多项式逻辑回归、朴素贝叶斯、线性支持向量分类(SVC)以及基于变换器的模型(DistilBERT)来评估它们在分类问题方面的有效性。结果显示,较高的布卢姆等级通常与增加的问题长度、Flesch-Kincaid 年级水平(FKGL)和词密度(LD)相关联,反映出更高的认知需求复杂性。多项式逻辑回归在不同布卢姆等级上的准确度有所波动,对于“知识”等级表现最好,但对于较高层级则不那么准确。合并较高的类别提高了复杂认知任务的准确性。朴素贝叶斯和线性SVC在较低层级上也表现出有效的分类能力,但在较高层级任务上则难以应对。DistilBERT实现了最高的性能,显著提高了对较低和较高层级认知水平的分类能力,总体验证准确率为91%。本研究突显了将布卢姆分类法整合到AI驱动的评估工具中的潜力,并强调了如DistilBERT等先进模型在提高教育内容生成方面的优势。