摘要
arXiv:2504.19467v2 宣告类型: replace-cross
摘要: 大型语言模型(LLMs)在医疗应用方面具有巨大的潜力,并且正在迅速发展,新的模型以加快的速度被发布。然而,当前在临床环境中对LLMs的评估仍然有限。大多数现有的基准测试依赖于医学考试风格的问题或来自PubMed的文本,无法捕捉现实世界电子健康记录(EHR)数据的复杂性。其他基准测试则集中在特定的应用场景上,限制了其在更广泛的临床应用中的普遍适用性。为了解决这一差距,我们介绍了BRIDGE,这是一个综合性的多语言基准测试,包含来自九种语言的现实世界临床数据源的87项任务。我们系统地评估了52个最先进的LLM(包括DeepSeek-R1、GPT-4o、Gemini和Llama 4)在各种推理策略下的表现。在总共13,572个实验中,我们的结果揭示了模型大小、语言、自然语言处理任务和临床专科之间显著的性能差异。值得注意的是,我们展示了开源LLM可以达到与专有模型相当的性能,而基于较旧架构的医学微调LLM往往不如更新的一般用途模型。BRIDGE及其相应的排行榜为新LLM在现实世界临床文本理解中的开发和评估提供了一个基础资源和独特参考。
BRIDGE排行榜: https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard