摘要
arXiv:2505.00931v1 Announce Type: 剪裁
摘要:本研究探讨了大型语言模型(LLMs)在扩展动态评估(DA)方面的能力。为了促进这一探讨,我们首先开发了DynaWrite——一个模块化的、基于微服务的语法辅导应用,支持多种LLMs生成针对英语学习者的动态反馈。初步测试了21个LLMs后,发现GPT-4o和神经聊天具有最大的潜力,可以扩展对语言学习课堂中的动态评估。进一步测试这两位候选人发现,这两种模型在识别用户句子中的语法错误方面表现相似。然而,GPT-4o在生成高质量的动态评估方面表现出色,因为它可以生成清晰、一致且逐步明确的提示。通过详细的功能测试还确认了实时响应能力和系统稳定性,GPT-4o表现出足够的速度和稳定性。本研究显示,LLMs可以用来扩展动态评估,从而使得动态评估可以在传统教师-学生设置中无法实现的更大群体中得以提供。