LLM2D
深入探究生物医学出版物中辅助写作的LLM过量词汇的作用
Delving into LLM-assisted writing in biomedical publications through excess vocabulary
作者: Dmitry Kobak, Rita Gonz\'alez-M\'arquez, Em\H{o}ke-\'Agnes Horv\'at, Jan Lause
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2406.07016v3

摘要

arXiv:2406.07016v3 Announce Type: replace-cross 摘要:像ChatGPT这样的大型语言模型(LLMs)可以在人类水平上生成和修改文本。这些模型具有明显的局限性:它们可以生成不准确的信息,强化现有的偏见,并且容易被滥用。然而,许多科学家使用它们来撰写学术论文。但这样的LLM使用在学术文献中有多普遍?为了回答这个问题,尤其是在生物医学研究领域,我们提出了一种无偏见的大规模方法:我们研究了PubMed索引的2010年至2024年间的超过1500万份生物医学摘要中的词汇变化,并展示了LLM的出现如何导致特定风格词汇频率的突然增加。这种超额词汇分析表明,至少有13.5%的2024年摘要是通过LLM处理的。这一下限在不同学科、国家和地区之间有所不同,某些子集达到了40%。我们表明,LLM在生物医学研究中的科学写作领域中产生了前所未有的影响,超过了像新冠疫情这样的重大世界事件的影响。