LLM2D
人类和大型语言模型在临床决策支持中的作用:一项基于医疗计算器的研究
Humans and Large Language Models in Clinical Decision Support: A Study with Medical Calculators
作者: Nicholas Wan, Qiao Jin, Joey Chan, Guangzhi Xiong, Serina Applebaum, Aidan Gilson, Reid McMurry, R. Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2411.05897v2

摘要

arXiv:2411.05897v2 宣告类型: replace-cross 摘要:尽管大型语言模型(LLMs)已经在执照考试中被评估其对一般医学知识的掌握情况,但它们在支持临床决策方面的能力,例如选择医学计算器,仍然存在不确定性。我们使用了35种临床计算器中的1,009个多项选择题-答案对组评估了九种LLMs,包括开源、专有和特定领域模型,并在一部分问题上将LLMs与人类进行了比较。尽管性能最好的LLM(OpenAI o1)在100个问题子集中的答案准确率为66.0%(置信区间:56.7-75.3%),但两位人类标注者以平均答案准确率为79.5%(置信区间:73.5-85.0%)的成绩在某些问题上超过了LLMs。最终,我们在包括风险分层和诊断在内的临床场景中评估了医学实习生和LLMs在推荐医学计算器方面的表现。通过错误分析发现,表现最佳的LLM继续在理解(错误的49.3%)和计算器知识(错误的7.1%)方面出现错误,我们的研究结果表明,LLMs在计算器推荐方面并不优于人类。