LLM2D
自动评估:一个关键指标,用于推动人工智能生成教学资源的质量和安全改进
Auto-Evaluation: A Critical Measure in Driving Improvements in Quality and Safety of AI-Generated Lesson Resources
作者: Hannah-Beth Clark, Margaux Dowland, Laura Benton, Reka Budai, Ibrahim Kaan Keskin, Emma Searle, Matthew Gregory, Mark Hodierne, William Gayne, John Roberts
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.10410v1

摘要

arXiv:2502.10410v1 类型: cross 摘要: 作为英国的公共资助机构,Oak National Academy 在这个领域创新方面处于独特的位置,因为我们拥有大约13,000个开放教育资源(OER),涵盖了所有国家课程学科,并由专家人力教师设计和质量保证。这为我们提供了构建高质量AI辅助课件规划工具Aila所需的文库内容,从而使得该工具免费使用,并因此广泛适用于全国各地的教师。此外,我们利用基于证据的课程原则,对课件设计的每个组成部分进行了编码和举例说明。为了评估Aila大规模生成的课件质量,我们开发了一个AI辅助自动评估代理,促进基于知情改进以提高输出质量。通过将人工评估与自动评估进行对比,我们已经开始进一步完善该代理,以提高其准确性,即与其专家人工评估者的契合度。在这篇论文中,我们通过一个有针对性的案例研究,展示了通过一个质量指标——多项选择题的难度级别来进行迭代评估过程。我们还探讨了这可能为类似的项目和更广泛的行业做出的贡献。