摘要
arXiv:2503.18995v1 交叉公告类型
摘要:我们随机部署了使用和未使用LLM工具构建的问题,并衡量学生能否正确回答以及他们能否正确区分人类编写的和LLM编写的题目。为了确定使用ChatGPT辅助编写的问题是否与教师的问题和来源文本一致,我们使用SBERT生成了人类和ChatGPT问题的代表向量,并将余弦相似度与课程教科书进行了比较。非显著的曼 Whitney U测试(z = 1.018,p = .309)表明,学生们无法察觉问题是否使用了ChatGPT辅助编写。然而,对于LLM编写的问题,学生的得分几乎低了9%(z = 2.702,p < .01)。这一结果可能表明,要么AI问题更难,要么学生们更熟悉教师的问题风格。总体而言,这项研究建议,虽然可以利用LLM工具辅助构建评估,但在确保问题公平、构成良好且与课程内容相关方面仍需谨慎。