摘要
arXiv:2305.16326v5 Announce Type: replace-cross
摘要:生物医学文献的快速发展给手工知识整理和综合带来了挑战。生物自然语言处理(BioNLP)实现了这一过程的自动化。虽然大型语言模型(LLMs)在通用领域显示出潜力,但在BioNLP任务中的有效性仍不清楚,这主要是由于缺乏基准和实际指南。
我们系统地评估了四种LLM,包括GPT和LLaMA的代表,在六个应用领域的12个BioNLP基准上的表现。我们将它们的零样本、少样本和微调性能与BERT或BART模型的传统微调进行了比较。我们检查了不一致性、缺失信息、幻觉,并进行了成本分析。结果显示,在大多数任务中,传统微调优于零样本或少样本的LLM。然而,像GPT-4这样的封闭源LLM在与推理相关的任务,如医学问答,表现出色。开源的LLM仍然需要微调以缩小性能差距。我们发现LLM输出中的问题,如缺失信息和幻觉。这些结果为在BioNLP中应用LLM提供了实际的见解。