LLM2D

摘要

arXiv:2503.15169v2 宣告类型: 替换交叉摘要：将大型语言模型（LLMs）应用于医疗信息提取已经成为一种有前景的方法。本研究评估了五种开源LLMs在六项涉及社交媒体数据（乳腺癌、药物调整方案变化、不良妊娠结局、潜在新冠肺炎病例）和临床数据（标签歧视、药物变动讨论）的医疗分类任务中的分类性能。我们报告了所有模型-任务组合的精确率、召回率和F1分数及其95%的置信区间。我们的研究发现，LLMs之间的性能存在显著差异，DeepSeekV3 出现为最强的整体表现者，在四个任务中获得了最高的F1分数。值得注意的是，模型通常在社交媒体任务上表现优于临床数据任务，暗示可能存在特定领域的挑战。尽管参数量较小，GEMMA-3-27B-IT 在召回率方面表现极其出色，而LLAMA4-109B 的表现令人惊讶地不如其前身LLAMA3-70B，这表明更大的参数量并不一定能够保证更好的分类结果。我们观察到模型在精确率与召回率之间存在不同的权衡关系，有些模型倾向于敏感性而另一些则倾向于特异性。这些发现突显了针对医疗应用的任务特定模型选择的重要性，考虑到特定的数据领域和精确率-召回率要求，而不仅仅是模型的大小。随着医疗领域越来越多地采用基于AI的文本分类工具，这项全面的基准测试提供了有价值的模型选择和实施指导，同时也强调了在医疗环境中持续评估和领域适应LLMs的需求。