LLM2D

摘要

arXiv:2505.00931v1 Announce Type: 剪裁摘要：本研究探讨了大型语言模型（LLMs）在扩展动态评估（DA）方面的能力。为了促进这一探讨，我们首先开发了DynaWrite——一个模块化的、基于微服务的语法辅导应用，支持多种LLMs生成针对英语学习者的动态反馈。初步测试了21个LLMs后，发现GPT-4o和神经聊天具有最大的潜力，可以扩展对语言学习课堂中的动态评估。进一步测试这两位候选人发现，这两种模型在识别用户句子中的语法错误方面表现相似。然而，GPT-4o在生成高质量的动态评估方面表现出色，因为它可以生成清晰、一致且逐步明确的提示。通过详细的功能测试还确认了实时响应能力和系统稳定性，GPT-4o表现出足够的速度和稳定性。本研究显示，LLMs可以用来扩展动态评估，从而使得动态评估可以在传统教师-学生设置中无法实现的更大群体中得以提供。