LLM2D

摘要

生物医学文献正在快速增长，这对人工整理和知识发现提出了重大挑战。生物医学自然语言处理（BioNLP）已成为一个强大的解决方案，可以从这些大量文献中自动提取信息和知识。近年来，大型语言模型 (LLMs) 因其出色的性能而受到关注。然而，在了解 LLMs 在 BioNLP 任务中的有效性和其对方法开发和下游用户的影响方面，仍存在重大差距。目前，在生物医学领域使用 LLMs 缺乏基线性能数据、基准和实用建议。为了解决这一差距，我们对四种代表性的 LLMs 进行了系统评估：GPT-3.5 和 GPT-4（闭源）、LLaMA 2（开源）以及 PMC LLaMA（特定领域），涵盖 12 个 BioNLP 数据集，涉及六个应用（命名实体识别、关系抽取、多标签文档分类、问答、文本摘要和文本简化）。评估在四种设置下进行：零样本、静态少样本、动态 K 最近邻少样本和微调。我们将这些模型与针对特定领域微调（特定领域）BERT 或 BART 模型的最新方法进行了比较，这些方法是 BioNLP 任务中公认的方法。评估涵盖定量和定性评估，其中后者涉及手动审查数十万个 LLM 输出，以查找提取和分类任务中不一致、缺失信息和幻觉。定性审查还检查了文本摘要任务中的准确性、完整性和可读性。此外，还对闭源 GPT 模型进行了成本分析。