摘要
arXiv:2502.11368v1 声明类型: cross
摘要: 本文探讨了大型语言模型(LLMs)在多维分析性写作评估的背景下的性能,即其根据多个评估标准提供评分和评论的能力。我们使用了一组由二语研究生撰写的文献综述,这些综述由人类专家在9项分析性标准的基础上进行评估。我们对几种流行的LLM在不同条件下执行相同任务进行了测试。为了评估反馈评论的质量,我们应用了一种新的反馈评论质量评估框架。与依赖人工判断的现有方法相比,该框架具有可解释性、成本效益、可扩展性和可重现性。我们发现,LLM能够生成合理良好且一般可靠的多维度分析性评估。我们发布了我们的语料库以确保可重现性。