LLM2D

摘要

arXiv:2503.18995v1 交叉公告类型摘要：我们随机部署了使用和未使用LLM工具构建的问题，并衡量学生能否正确回答以及他们能否正确区分人类编写的和LLM编写的题目。为了确定使用ChatGPT辅助编写的问题是否与教师的问题和来源文本一致，我们使用SBERT生成了人类和ChatGPT问题的代表向量，并将余弦相似度与课程教科书进行了比较。非显著的曼 Whitney U测试（z = 1.018，p = .309）表明，学生们无法察觉问题是否使用了ChatGPT辅助编写。然而，对于LLM编写的问题，学生的得分几乎低了9%（z = 2.702，p < .01）。这一结果可能表明，要么AI问题更难，要么学生们更熟悉教师的问题风格。总体而言，这项研究建议，虽然可以利用LLM工具辅助构建评估，但在确保问题公平、构成良好且与课程内容相关方面仍需谨慎。