LLM2D

摘要

arXiv:2505.08828v1 交叉类型: cross 摘要：随着人类与AI在教育领域的协作越来越多，理解和衡量这种互动的范围和性质提出了重大的挑战。本研究探讨了使用作者身份验证(AV)技术，不仅仅作为一种惩罚措施，而是作为一种量化学术写作中AI辅助手段的方法，重点在于促进透明度、可解释性和学生发展。在前人工作的基础上，我们将研究划分为三个阶段：数据集选择和扩充、AV方法开发以及系统评估。利用三个数据集——包括一个公共数据集(PAN-14)和来自墨尔本大学不同课程的学生数据——我们扩充了数据，包括生成式语言模型（LLM）生成的文本，总计包括1,889份文档和540个作者身份问题，涉及506名学生。我们开发了一种适应性的特征向量差异AV方法，用于为学生构建稳健的学术写作档案，旨在捕捉他们写作中具有重要意义的个体特征。该方法在多个场景下进行了评估，包括区分学生作者和LLM生成的文本，并测试其抵抗LLM模仿学生写作风格的能力。结果表明，改进的AV分类器能够识别风格统计上的差异，并在单词和句子层级上衡量人类与AI的合作程度，同时为教育工作者提供了一个透明的工具来支持学术诚信调查。这项工作推进了AV技术的发展，提供了有关AI驱动时代学术写作动态的实际见解。