LLM2D
探索ChatGPT在学术写作中使用中的过剩词汇现象
Delving into ChatGPT usage in academic writing through excess vocabulary
作者: Dmitry Kobak, Rita Gonz\'alez-M\'arquez, Em\H{o}ke-\'Agnes Horv\'at, Jan Lause
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2406.07016v4

摘要

arXiv:2406.07016v4 通知类型:替换-交叉 摘要:像ChatGPT这样的大规模语言模型(LLMs)可以生成和修订具有人类水平性能的文本。这些模型存在明显的局限性:它们可能会产生不准确的信息、强化现有的偏见,并且可能被误用。然而,许多科学家使用它们来进行学术写作。但学术文献中这样的LLM使用情况有多普遍?为了回答这个问题,我们提出了一种无偏见的大规模方法:我们研究了2010年至2024年间1400万篇PubMed摘要中的词汇变化,并展示了LLMs出现后某些风格词出现频率的突然增加。这种超额词分析表明,至少有10%的2024年的摘要是通过LLMs处理的。这一下限值在不同学科、国家和地区之间有所不同,有些子语料库甚至达到了30%。我们展示了LLMs对科学文献产生了前所未有的影响,超越了诸如新冠病毒大流行等重大世界事件的影响。