摘要
大型语言模型辅助工具正日益广泛地被高等院校学生使用。虽然这些工具为改进教学和教育提供了机会,但也对评估和学习成果带来了重大挑战。我们通过脆弱性的视角来理解这些挑战,即大学评估和学习成果可能受到学生使用生成式AI的影响。我们通过衡量AI辅助工具完成标准大学STEM课程评估题目的程度来调查这种脆弱性的潜在规模。具体来说,我们从EPFL的50门课程中汇编了一个新的文本评估题数据集,并评估了两个AI助手GPT-3.5和GPT-4是否能够充分解答这些问题。我们使用了八种提示策略来生成答案,发现GPT-4平均正确回答了65.8%的问题,并且至少可以使用一种提示策略对85.1%的问题给出正确答案。当按学位项目对我们数据集中的课程进行分组时,这些系统已经通过了各种学位项目中大量核心课程的非项目评估,这给高等教育认证带来了风险,并且随着这些模型的改进,这种风险还会进一步扩大。我们的研究结果呼吁高等教育机构根据生成式AI的进步,重新审视项目级别的评估设计。