LLM2D

摘要

arXiv:2409.13120v1 公告类型: 交叉摘要: 我们评估了大型语言模型（LLMs）在评估作文质量方面的有效性，重点关注其与人类评分的对齐情况。更具体地说，我们评估了ChatGPT和Llama在自动作文评分（AES）任务中的表现，这是教育领域中一个重要的自然语言处理（NLP）应用。我们考虑了零样本学习和少样本学习以及不同的提示方法。我们将LLMs提供的数值评分与ASAP数据集中人类评分者提供的分数进行比较，ASAP数据集是AES任务的知名基准。我们的研究表明，与人类评分者提供的分数相比，LLMs通常会给出较低的分数；此外，这些分数与人类评分者的分数相关性不高。特别是，ChatGPT往往比Llama更严厉，与人类评价的偏差更大。我们还尝试了之前AES方法中常用的多种作文特征，包括长度、连接词和过渡词的使用情况以及可读性指标，包括拼写和语法错误的数量。我们发现，通常这些特征与人类或LLM的评分没有很强的相关性。最后，我们报告了Llama 3的结果，这些结果总体上表现更好，符合预期。总的来说，虽然LLMs似乎不足以完全替代人类评分，但我们的结果对未来将其用作辅助人类评分的工具持一定的乐观态度。