摘要
生物医学文献正在快速增长,这对人工整理和知识发现提出了重大挑战。生物医学自然语言处理(BioNLP)已成为一个强大的解决方案,可以从这些大量文献中自动提取信息和知识。近年来,大型语言模型 (LLMs) 因其出色的性能而受到关注。然而,在了解 LLMs 在 BioNLP 任务中的有效性和其对方法开发和下游用户的影响方面,仍存在重大差距。目前,在生物医学领域使用 LLMs 缺乏基线性能数据、基准和实用建议。为了解决这一差距,我们对四种代表性的 LLMs 进行了系统评估:GPT-3.5 和 GPT-4(闭源)、LLaMA 2(开源)以及 PMC LLaMA(特定领域),涵盖 12 个 BioNLP 数据集,涉及六个应用(命名实体识别、关系抽取、多标签文档分类、问答、文本摘要和文本简化)。评估在四种设置下进行:零样本、静态少样本、动态 K 最近邻少样本和微调。我们将这些模型与针对特定领域微调(特定领域)BERT 或 BART 模型的最新方法进行了比较,这些方法是 BioNLP 任务中公认的方法。评估涵盖定量和定性评估,其中后者涉及手动审查数十万个 LLM 输出,以查找提取和分类任务中不一致、缺失信息和幻觉。定性审查还检查了文本摘要任务中的准确性、完整性和可读性。此外,还对闭源 GPT 模型进行了成本分析。