摘要
生物医学文献正在迅速增长,手动整理和提取知识变得具有挑战性。能够自动从生物医学文献中提取信息的生物医学自然语言处理(BioNLP)技术有助于减轻这一负担。最近,大型语言模型(LLMs),如GPT-3和GPT-4,由于其卓越的性能而获得了广泛关注。然而,它们在BioNLP任务中的有效性以及对方法开发和下游用户的影响仍未得到充分研究。本初步研究(1)在八个BioNLP数据集中建立了GPT-3和GPT-4在零样本和单样本设置下的基线性能,涵盖四个应用:命名实体识别、关系抽取、多标签文档分类以及语义相似性和推理,(2)检查了LLMs产生的错误,并将错误分类为三种类型:遗漏、不一致和不必要的人工内容,(3)提供了在BioNLP应用中使用LLMs的建议。我们通过https://github.com/qingyu-qc/gpt_bionlp_benchmark公开提供数据集、基线和结果。