摘要
arXiv:2409.15112v1 公告类型: 新提交 摘要: 评估大型语言模型(LLMs)在教育任务中辅助教师和学生的能力正受到越来越多的关注。本文评估了ChatGPT解决和评分西班牙语计算机科学学士学位认证考试中实际编程考试的能力。我们的研究结果表明,该AI模型仅在解决简单编码任务时有效。它在处理复杂问题或评估他人编写的解决方案方面的能力远未达到有效水平。作为这项研究的一部分,我们还发布了一个新的编程任务语料库以及相应的解决问题或评分解决方案的提示。该资源可被其他研究团队进一步利用。