LLM2D
大规模语言模型在生物医学自然语言处理应用中的基准测试与建议
Benchmarking large language models for biomedical natural language processing applications and recommendations
作者: Qingyu Chen, Yan Hu, Xueqing Peng, Qianqian Xie, Qiao Jin, Aidan Gilson, Maxwell B. Singer, Xuguang Ai, Po-Ting Lai, Zhizheng Wang, Vipina Kuttichi Keloth, Kalpana Raja, Jiming Huang, Huan He, Fongci Lin, Jingcheng Du, Rui Zhang, W. Jim Zheng, Ron A. Adelman, Zhiyong Lu, Hua Xu
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2305.16326v5

摘要

arXiv:2305.16326v5 Announce Type: replace-cross 摘要:生物医学文献的快速发展给手工知识整理和综合带来了挑战。生物自然语言处理(BioNLP)实现了这一过程的自动化。虽然大型语言模型(LLMs)在通用领域显示出潜力,但在BioNLP任务中的有效性仍不清楚,这主要是由于缺乏基准和实际指南。 我们系统地评估了四种LLM,包括GPT和LLaMA的代表,在六个应用领域的12个BioNLP基准上的表现。我们将它们的零样本、少样本和微调性能与BERT或BART模型的传统微调进行了比较。我们检查了不一致性、缺失信息、幻觉,并进行了成本分析。结果显示,在大多数任务中,传统微调优于零样本或少样本的LLM。然而,像GPT-4这样的封闭源LLM在与推理相关的任务,如医学问答,表现出色。开源的LLM仍然需要微调以缩小性能差距。我们发现LLM输出中的问题,如缺失信息和幻觉。这些结果为在BioNLP中应用LLM提供了实际的见解。