LLM2D

摘要

arXiv:2405.14445v2 适用类型: 替换交叉摘要：本文描述了使用GPT-4（大规模语言模型，LLM）进行系统评价中（半）自动化数据提取的快速可行性研究。尽管近期对LLM的兴趣有所增加，但仍然缺乏如何设计基于LLM的自动化工具以及如何稳健评估其性能的理解。在2023年证据综合黑客马拉松期间，我们进行了两次可行性研究。首先，自动提取人类临床、动物和社会科学领域研究的特征。我们为每个类别开发了两个研究，并使用了十个研究进行评估。其次，我们使用LLM预测EBM-NLP数据集中100篇摘要中的人、干预、对照和结果（PICOs）标签。总体而言，结果显示约80%的准确率，各领域之间存在一些差异（人类临床研究为82%，动物研究为80%，人类社会科学领域研究为72%）。因果推理方法和研究设计是数据提取项目中错误最多的部分。在PICOs研究中，参与者和干预/对照部分显示高准确率（>80%），而结果部分更具挑战性。评估是手动进行的；BLEU和ROUGE等评分方法显示出有限的价值。我们观察到LLM预测的变异性以及响应质量的变化。本文提出了一个模板，用于在未来评价在系统评价自动化背景下的数据提取中LLM的表现。我们的结果显示，在某些情况下，如作为第二个或第三个审阅人使用LLM，可能具有价值。然而，当将像GPT-4这样的模型整合到工具中时需谨慎。对于LLM处理的每种类型的数据，在实际应用中的稳定性和可靠性需要进一步研究。