LLM2D
探索大型语言模型在系统评价中数据提取中的应用:一项快速可行性研究
Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study
作者: Lena Schmidt, Kaitlyn Hair, Sergio Graziosi, Fiona Campbell, Claudia Kapp, Alireza Khanteymoori, Dawn Craig, Mark Engelbert, James Thomas
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2405.14445v2

摘要

arXiv:2405.14445v2 适用类型: 替换交叉 摘要:本文描述了使用GPT-4(大规模语言模型,LLM)进行系统评价中(半)自动化数据提取的快速可行性研究。尽管近期对LLM的兴趣有所增加,但仍然缺乏如何设计基于LLM的自动化工具以及如何稳健评估其性能的理解。在2023年证据综合黑客马拉松期间,我们进行了两次可行性研究。首先,自动提取人类临床、动物和社会科学领域研究的特征。我们为每个类别开发了两个研究,并使用了十个研究进行评估。其次,我们使用LLM预测EBM-NLP数据集中100篇摘要中的人、干预、对照和结果(PICOs)标签。总体而言,结果显示约80%的准确率,各领域之间存在一些差异(人类临床研究为82%,动物研究为80%,人类社会科学领域研究为72%)。因果推理方法和研究设计是数据提取项目中错误最多的部分。在PICOs研究中,参与者和干预/对照部分显示高准确率(>80%),而结果部分更具挑战性。评估是手动进行的;BLEU和ROUGE等评分方法显示出有限的价值。我们观察到LLM预测的变异性以及响应质量的变化。本文提出了一个模板,用于在未来评价在系统评价自动化背景下的数据提取中LLM的表现。我们的结果显示,在某些情况下,如作为第二个或第三个审阅人使用LLM,可能具有价值。然而,当将像GPT-4这样的模型整合到工具中时需谨慎。对于LLM处理的每种类型的数据,在实际应用中的稳定性和可靠性需要进一步研究。