摘要
arXiv:2504.19467v1 交叉发布类型: cross
摘要: 大型语言模型 (LLMs) 在医疗应用方面前景广阔,正在迅速发展,新模型的发布速度加快。然而,当前在临床环境中的LLMs评估仍然有限。大多数现有的基准测试依赖于医学考试风格的问题或PubMed衍生的文字段落,未能捕捉到实际电子健康记录(EHR)数据的复杂性。其他基准测试则专注于特定的应用场景,限制了它们在更广泛临床用途中的普遍适用性。为了解决这一差距,我们介绍了BRIDGE,这是一个全面的多语言基准测试,包含87个从九种语言的实际临床数据来源中提取的任务。我们系统地评估了52个最先进的LLMs(包括DeepSeek-R1、GPT-4o、Gemini和Llama 4)的各种推理策略。共有13,572次实验,结果表明,不同模型大小、语言、自然语言处理任务和临床专科之间的性能存在显著差异。值得注意的是,我们证明开源LLMs可以达到与专有模型相当的性能,而基于较老架构的医学微调LLMs通常不如更新的一般用途模型表现好。BRIDGE及其对应的排行榜为新LLMs在实际临床文本理解中的开发和评估提供了基础资源和独特参考。