摘要
arXiv:2405.14445v2 适用类型: 替换交叉
摘要:本文描述了使用GPT-4(大规模语言模型,LLM)进行系统评价中(半)自动化数据提取的快速可行性研究。尽管近期对LLM的兴趣有所增加,但仍然缺乏如何设计基于LLM的自动化工具以及如何稳健评估其性能的理解。在2023年证据综合黑客马拉松期间,我们进行了两次可行性研究。首先,自动提取人类临床、动物和社会科学领域研究的特征。我们为每个类别开发了两个研究,并使用了十个研究进行评估。其次,我们使用LLM预测EBM-NLP数据集中100篇摘要中的人、干预、对照和结果(PICOs)标签。总体而言,结果显示约80%的准确率,各领域之间存在一些差异(人类临床研究为82%,动物研究为80%,人类社会科学领域研究为72%)。因果推理方法和研究设计是数据提取项目中错误最多的部分。在PICOs研究中,参与者和干预/对照部分显示高准确率(>80%),而结果部分更具挑战性。评估是手动进行的;BLEU和ROUGE等评分方法显示出有限的价值。我们观察到LLM预测的变异性以及响应质量的变化。本文提出了一个模板,用于在未来评价在系统评价自动化背景下的数据提取中LLM的表现。我们的结果显示,在某些情况下,如作为第二个或第三个审阅人使用LLM,可能具有价值。然而,当将像GPT-4这样的模型整合到工具中时需谨慎。对于LLM处理的每种类型的数据,在实际应用中的稳定性和可靠性需要进一步研究。