LLM2D

摘要

arXiv:2305.16326v5 Announce Type: replace-cross 摘要：生物医学文献的快速发展给手工知识整理和综合带来了挑战。生物自然语言处理（BioNLP）实现了这一过程的自动化。虽然大型语言模型（LLMs）在通用领域显示出潜力，但在BioNLP任务中的有效性仍不清楚，这主要是由于缺乏基准和实际指南。我们系统地评估了四种LLM，包括GPT和LLaMA的代表，在六个应用领域的12个BioNLP基准上的表现。我们将它们的零样本、少样本和微调性能与BERT或BART模型的传统微调进行了比较。我们检查了不一致性、缺失信息、幻觉，并进行了成本分析。结果显示，在大多数任务中，传统微调优于零样本或少样本的LLM。然而，像GPT-4这样的封闭源LLM在与推理相关的任务，如医学问答，表现出色。开源的LLM仍然需要微调以缩小性能差距。我们发现LLM输出中的问题，如缺失信息和幻觉。这些结果为在BioNLP中应用LLM提供了实际的见解。