摘要
大型语言模型(LLM)如ChatGPT的突然出现,对整个计算机教育界产生了颠覆性的影响。LLM已被证明在生成CS1和CS2问题的正确代码方面表现出色,甚至可以作为学习编程学生的友好助手。最近的研究表明,LLM在解释和解决编译器错误消息方面表现出明显优越的结果——几十年来,这是学习编程中最令人沮丧的部分之一。然而,LLM生成的错误消息解释只由专家程序员在人工条件下评估。这项工作旨在了解新手程序员如何在更现实的情况下解决编程错误消息(PEM)。我们进行了一项包含n=106名参与者的被试内研究,要求学生修复六个有错误的C程序。对于每个程序,参与者被随机分配使用以下三种方式之一来修复问题:使用标准编译器错误消息、使用专家手写错误消息或使用GPT-4生成的错误消息解释。尽管在合成基准测试中取得了令人鼓舞的证据,但我们发现,在6项任务中,只有1项GPT-4生成的错误消息优于传统的编译器错误消息,衡量标准是学生解决每个问题所需的时间。无论是客观还是主观衡量,手写解释仍然优于LLM和传统的错误消息。