LLM2D

摘要

大型语言模型 (LLM) 已经改变了众多领域的科研和实践。在计算机教育研究 (CER) 领域，LLM 备受关注，尤其是在编程学习方面。然而，CER 中关于 LLM 的许多工作都集中在应用和评估专有模型上。本文评估了开源 LLM 在生成高质量编程作业反馈和判断编程反馈质量方面的效率，并将结果与专有模型进行了对比。我们对学生提交的 Python 入门编程练习数据集的评估表明，最先进的开源 LLM 在生成和评估编程反馈方面几乎与专有模型不相上下。此外，我们还展示了较小型 LLM 在这些任务中的效率，并强调了即使对教育工作者和实践者而言，也能免费获得各种各样的 LLM。