摘要
arXiv:2503.17599v2 公告类型: replace-cross
摘要:大型语言模型(LLMs)在通用实践中展示了相当大的潜力。然而,现有的基准和评估框架主要依赖于考试式或简化的问答格式,缺乏与全科医生在实际临床工作中遇到的责任相一致的基于能力的结构。因此,LLMs在多大程度上能够可靠地履行全科医生(GPs)的职责仍然不确定。在本文中,我们提出了一种新的评估框架,以评估LLMs作为GPs的能力。基于此框架,我们引入了全科实践基准(GPBench),其数据由领域专家严格按照常规临床实践标准进行了细致注释。我们评估了十种最先进的LLM,并分析了它们的能力。我们的研究结果表明,当前的LLMs在没有人类监督的情况下部署在这些环境中还不具备条件,针对全科医生日常职责的具体优化是必不可少的。