LLM2D
语言模型是少-shot评阅人
Language Models are Few-Shot Graders
作者: Chenyan Zhao, Mariana Silva, Seth Poulsen
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13337v1

摘要

arXiv:2502.13337v1 交叉类型:交叉 摘要:对学生的作业进行评价是有效学习的关键组成部分,其过程的自动化可以显著减轻评阅人的工作负担。随着大语言模型(LLMs)的发展,自动短答案评阅(ASAG)系统提供了一种评估开放型学生回答并提供即时反馈的有希望的解决方案。本文介绍了一种基于最新LLM的ASAG管道。我们的新型基于LLM的ASAG管道在相同的数据集上实现了比现有自定义模型更好的性能。我们还比较了三个OpenAI模型:GPT-4、GPT-4o和o1-preview的评分性能。我们的结果显示,GPT-4o在准确性和成本效益之间取得了最佳平衡。相比之下,尽管o1-preview具有更高的准确度,但它在错误上的更大变异性使其不适用于教室使用。我们研究了使用不同提示策略(无示例、随机选择和基于检索增强生成(RAG)的选择)纳入教师评阅示例的影响。我们的研究结果表明,提供评阅示例可以提高评分准确性,并且基于RAG的选择策略优于随机选择。此外,整合评分标准提高了准确性,因为它为评估提供了结构化的标准。