LLM2D

ChatGPT 能获得工程学位吗？评估高等教育对人工智能助手的脆弱性

Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants

作者: Beatriz Borges, Negar Foroutan, Deniz Bayazit, Anna Sotnikova, Syrielle Montariol, Tanya Nazaretzky, Mohammadreza Banaei, Alireza Sakhaeirad, Philippe Servant, Seyed Parsa Neshaei, Jibril Frej, Angelika Romanou, Gail Weiss, Sepideh Mamooler, Zeming Chen, Simin Fan, Silin Gao, Mete Ismayilzada, Debjit Paul, Alexandre Sch\"opfer, Andrej Janchevski, Anja Tiede, Clarence Linden, Emanuele Troiani, Francesco Salvi, Freya Behrens, Giacomo Orsi, Giovanni Piccioli, Hadrien Sevel, Louis Coulon, Manuela Pineros-Rodriguez, Marin Bonnassies, Pierre Hellich, Puck van Gerwen, Sankalp Gambhir, Solal Pirelli, Thomas Blanchard, Timoth\'ee Callens, Toni Abi Aoun, Yannick Calvino Alonso, Yuri Cho, Alberto Chiappa, Antonio Sclocchi, \'Etienne Bruno, Florian Hofhammer, Gabriel Pescia, Geovani Rizk, Leello Dadi, Lucas Stoffl, Manoel Horta Ribeiro, Matthieu Bovel, Yueyang Pan, Aleksandra Radenovic, Alexandre Alahi, Alexander Mathis, Anne-Florence Bitbol, Boi Faltings, C\'ecile H\'ebert, Devis Tuia, Fran\c{c}ois Mar\'echal, George Candea, Giuseppe Carleo, Jean-C\'edric Chappelier, Nicolas Flammarion, Jean-Marie F\"urbringer, Jean-Philippe Pellet, Karl Aberer, Lenka Zdeborov\'a, Marcel Salath\'e, Martin Jaggi, Martin Rajman, Mathias Payer, Matthieu Wyart, Michael Gastpar, Michele Ceriotti, Ola Svensson, Olivier L\'ev\^eque, Paolo Ienne, Rachid Guerraoui, Robert West, Sanidhya Kashyap, Valerio Piazza, Viesturs Simanis, Viktor Kuncak, Volkan Cevher, Philippe Schwaller, Sacha Friedli, Patrick Jermann, Tanja K\"aser, Antoine Bosselut

发布日期: 11/28/2024

arXiv ID: oai:arXiv.org:2408.11841v2

摘要

大型语言模型辅助工具正日益广泛地被高等院校学生使用。虽然这些工具为改进教学和教育提供了机会，但也对评估和学习成果带来了重大挑战。我们通过脆弱性的视角来理解这些挑战，即大学评估和学习成果可能受到学生使用生成式AI的影响。我们通过衡量AI辅助工具完成标准大学STEM课程评估题目的程度来调查这种脆弱性的潜在规模。具体来说，我们从EPFL的50门课程中汇编了一个新的文本评估题数据集，并评估了两个AI助手GPT-3.5和GPT-4是否能够充分解答这些问题。我们使用了八种提示策略来生成答案，发现GPT-4平均正确回答了65.8%的问题，并且至少可以使用一种提示策略对85.1%的问题给出正确答案。当按学位项目对我们数据集中的课程进行分组时，这些系统已经通过了各种学位项目中大量核心课程的非项目评估，这给高等教育认证带来了风险，并且随着这些模型的改进，这种风险还会进一步扩大。我们的研究结果呼吁高等教育机构根据生成式AI的进步，重新审视项目级别的评估设计。

查看原文下载 PDF