LLM2D

摘要

大型语言模型（LLM）在批改学生作文这一耗时但又至关重要的教学任务中展现出潜在的解决方案。本研究评估了开源和闭源LLM在评估德语学生作文方面的性能和可靠性，并将它们的评价结果与37位教师基于10个预定义标准（例如，情节逻辑、表达）的评价结果进行了比较。我们使用五个LLM（GPT-3.5、GPT-4、o1、LLaMA 3-70B和Mixtral 8x7B）分析了来自7年级和8年级学生的20篇真实作文，旨在深入了解LLM的评分能力。闭源GPT模型在内部一致性和与人工评分的一致性方面均优于开源模型，尤其是在语言相关标准方面表现出色。新型o1模型优于所有其他LLM，其与人工评估的总体得分Spearman相关系数达到r = .74，内部一致性ICC = .80。这些发现表明，基于LLM的评估可以作为一种有用的工具，通过支持作文评估来减轻教师的工作负担，尤其是在语言相关标准方面。然而，由于这些模型倾向于给出较高的分数，因此需要进一步改进才能更好地捕捉内容质量的各个方面。