LLM2D
开源大型语言模型在医疗文本分类任务中的基准测试
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks
作者: Yuting Guo, Abeed Sarker
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2503.15169v2

摘要

arXiv:2503.15169v2 宣告类型: 替换交叉 摘要:将大型语言模型(LLMs)应用于医疗信息提取已经成为一种有前景的方法。本研究评估了五种开源LLMs在六项涉及社交媒体数据(乳腺癌、药物调整方案变化、不良妊娠结局、潜在新冠肺炎病例)和临床数据(标签歧视、药物变动讨论)的医疗分类任务中的分类性能。我们报告了所有模型-任务组合的精确率、召回率和F1分数及其95%的置信区间。我们的研究发现,LLMs之间的性能存在显著差异,DeepSeekV3 出现为最强的整体表现者,在四个任务中获得了最高的F1分数。值得注意的是,模型通常在社交媒体任务上表现优于临床数据任务,暗示可能存在特定领域的挑战。尽管参数量较小,GEMMA-3-27B-IT 在召回率方面表现极其出色,而LLAMA4-109B 的表现令人惊讶地不如其前身LLAMA3-70B,这表明更大的参数量并不一定能够保证更好的分类结果。我们观察到模型在精确率与召回率之间存在不同的权衡关系,有些模型倾向于敏感性而另一些则倾向于特异性。这些发现突显了针对医疗应用的任务特定模型选择的重要性,考虑到特定的数据领域和精确率-召回率要求,而不仅仅是模型的大小。随着医疗领域越来越多地采用基于AI的文本分类工具,这项全面的基准测试提供了有价值的模型选择和实施指导,同时也强调了在医疗环境中持续评估和领域适应LLMs的需求。