摘要
本研究旨在探究 GPT-4 是否能够有效地为设计类大学生的作业评分并提供有用的反馈。在设计教育中,作业没有唯一的正确答案,通常涉及解决开放式设计问题。这种设计项目的主观性往往会导致评分问题,因为不同评审者之间的评分可能会有差异,例如来自工程背景或建筑背景的教师。本研究采用迭代研究方法开发定制 GPT,旨在获得更可靠的结果,并测试它是否能够为设计学生提供建设性的反馈。研究结果包括:首先,经过数轮迭代,GPT 与人类评审者之间的信度达到了教育工作者普遍接受的水平。这表明,通过向 GPT 提供准确的提示,并不断迭代构建定制 GPT,它可以有效地为学生的作业评分,成为人类评审者的可靠补充。其次,GPT 在不同时间评分的内部信度在 0.65 到 0.78 之间。这表明,在适当的指导下,定制 GPT 可以提供一致的结果,这是为学生评分的先决条件。由于一致性和可比性是确保教育评估可靠性的两条主要规则,因此本研究探讨了是否可以开发出符合这两条规则的定制 GPT。最后,我们通过测试定制 GPT 是否可以为学生提供有用的反馈来结束论文,并反思教育工作者如何开发和迭代定制 GPT 以作为辅助评审者。