LLM2D

摘要

arXiv:2504.19467v1 交叉发布类型: cross 摘要: 大型语言模型 (LLMs) 在医疗应用方面前景广阔，正在迅速发展，新模型的发布速度加快。然而，当前在临床环境中的LLMs评估仍然有限。大多数现有的基准测试依赖于医学考试风格的问题或PubMed衍生的文字段落，未能捕捉到实际电子健康记录(EHR)数据的复杂性。其他基准测试则专注于特定的应用场景，限制了它们在更广泛临床用途中的普遍适用性。为了解决这一差距，我们介绍了BRIDGE，这是一个全面的多语言基准测试，包含87个从九种语言的实际临床数据来源中提取的任务。我们系统地评估了52个最先进的LLMs（包括DeepSeek-R1、GPT-4o、Gemini和Llama 4）的各种推理策略。共有13,572次实验，结果表明，不同模型大小、语言、自然语言处理任务和临床专科之间的性能存在显著差异。值得注意的是，我们证明开源LLMs可以达到与专有模型相当的性能，而基于较老架构的医学微调LLMs通常不如更新的一般用途模型表现好。BRIDGE及其对应的排行榜为新LLMs在实际临床文本理解中的开发和评估提供了基础资源和独特参考。