LLM2D
你的论文是否正在接受一个大型语言模型的评审?探究同行评审中人工智能文本可检测性
Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review
作者: Sungduk Yu, Man Luo, Avinash Madasu, Vasudev Lal, Phillip Howard
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2410.03019v1

摘要

同行评审是确保已发表科学研究完整性的关键流程。对这一流程的信任建立在这样一个假设之上:相关领域的专家会认真考虑提交出版的稿件的优点。随着大型语言模型 (LLM) 在语言能力方面的快速发展,同行评审流程面临着一个新的潜在风险,即疏忽的审稿人会依赖 LLM 来执行通常耗时的论文审阅流程。在本研究中,我们调查了现有 AI 文本检测算法区分人类撰写的同行评审和不同最先进的 LLM 撰写的同行评审的能力。我们的分析表明,现有的方法无法识别许多 GPT-4o 撰写的评论,同时也会产生大量的误报分类。为了解决这一缺陷,我们提出了一种新的检测方法,该方法在识别 GPT-4o 撰写的同行评审方面超越了现有方法,并且误报分类的水平很低。我们的工作揭示了在单个评论级别准确识别 AI 生成文本的难度,突出了对新工具和方法的迫切需求,以检测这种不道德的生成式 AI 应用。