LLM2D

摘要

本研究旨在探究 GPT-4 是否能够有效地为设计类大学生的作业评分并提供有用的反馈。在设计教育中，作业没有唯一的正确答案，通常涉及解决开放式设计问题。这种设计项目的主观性往往会导致评分问题，因为不同评审者之间的评分可能会有差异，例如来自工程背景或建筑背景的教师。本研究采用迭代研究方法开发定制 GPT，旨在获得更可靠的结果，并测试它是否能够为设计学生提供建设性的反馈。研究结果包括：首先，经过数轮迭代，GPT 与人类评审者之间的信度达到了教育工作者普遍接受的水平。这表明，通过向 GPT 提供准确的提示，并不断迭代构建定制 GPT，它可以有效地为学生的作业评分，成为人类评审者的可靠补充。其次，GPT 在不同时间评分的内部信度在 0.65 到 0.78 之间。这表明，在适当的指导下，定制 GPT 可以提供一致的结果，这是为学生评分的先决条件。由于一致性和可比性是确保教育评估可靠性的两条主要规则，因此本研究探讨了是否可以开发出符合这两条规则的定制 GPT。最后，我们通过测试定制 GPT 是否可以为学生提供有用的反馈来结束论文，并反思教育工作者如何开发和迭代定制 GPT 以作为辅助评审者。