摘要
arXiv:2407.03004v2 宣布类型: replace-cross
摘要:大型语言模型(LLMs)已被证明能够编码临床知识。然而,许多评估工作依赖于结构化的问答基准,忽视了在现实世界环境中解析和推理未结构化的临床叙述所面临的诸多关键挑战。利用自由文本临床描述,我们介绍了一种名称为SemioLLM的评估框架,该框架在癫痫的核心诊断任务上评估了6个最先进的模型(GPT-3.5、GPT-4、Mixtral-8x7B、Qwen-72B、LlaMa2、LlaMa3)。利用一个包含1,269个癫痫发作描述的数据库,我们展示了大多数LLMs能够在脑部癫痫发作起始区的概率预测方面生成准确且自信的结果。经过提示工程处理后,大多数模型的性能能达到临床医生的水平,带有专家指导的推理过程导致了最一致的改进。性能还受到了临床上下文模仿、叙述长度和语言环境(分别导致13.7%、32.7%和14.2%的性能差异)的强烈影响。然而,对推理输出的专家分析显示,正确的预测可能基于虚构的知识和缺乏可靠的来源引用,这突显了在临床使用中提高LLMs可解释性的需求。总体而言,SemioLLM提供了一个可扩展、领域适应的框架,用于评估临床学科中含糊的口头描述编码诊断信息的LLMs。通过确定最先进的模型的优点和局限性,我们的研究支持了开发在临床中稳健且全球适用的AI系统的努力,用于医疗保健。