摘要
arXiv:2504.14964v1 公告类型:新
摘要:大型语言模型(LLMs),如 GitHub Copilot 和 ChatGPT 在编程学生中变得非常流行。学生们在编程课程中使用LLMs来协助他们编程,包括生成源代码。以往的研究已评估了LLMs解决入门级课程编程作业的能力。结果显示,LLMs在为计算机科学(CS)入门课程生成代码方面非常有效。然而,在评估LLMs生成解决高级编程作业的代码能力方面还存在研究缺口。在这项工作中,我们评估了四种LLM工具解决三个流行编程语言(Java、Python 和 C)中的高级 CS 课程编程作业的能力。我们手工选择了12个问题,包括作为基线的三个入门课程问题和来自二年级和三年级CS课程的九个编程作业。为了评估由LLM生成的代码,我们为每个问题生成了1000个测试案例,并分析了程序输出。我们的评估表明,虽然LLMs在生成入门级编程课程的源代码方面非常有效,但在解决高级编程作业方面更具挑战性。不过,在许多情况下,LLMs能够识别基本问题并提供可能对CS学生有用的部分解决方案。此外,我们的结果还可能为高级编程课程的教师提供有关如何设计编程作业的有用指导。