LLM2D
评估用于生成和评判编程反馈的语言模型
Evaluating Language Models for Generating and Judging Programming Feedback
作者: Charles Koutcheme, Nicola Dainese, Arto Hellas, Sami Sarsa, Juho Leinonen, Syed Ashraf, Paul Denny
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2407.04873v2

摘要

大型语言模型 (LLM) 已经改变了众多领域的科研和实践。在计算机教育研究 (CER) 领域,LLM 备受关注,尤其是在编程学习方面。然而,CER 中关于 LLM 的许多工作都集中在应用和评估专有模型上。本文评估了开源 LLM 在生成高质量编程作业反馈和判断编程反馈质量方面的效率,并将结果与专有模型进行了对比。我们对学生提交的 Python 入门编程练习数据集的评估表明,最先进的开源 LLM 在生成和评估编程反馈方面几乎与专有模型不相上下。此外,我们还展示了较小型 LLM 在这些任务中的效率,并强调了即使对教育工作者和实践者而言,也能免费获得各种各样的 LLM。