LLM2D

摘要

arXiv:2411.05897v2 宣告类型: replace-cross 摘要：尽管大型语言模型（LLMs）已经在执照考试中被评估其对一般医学知识的掌握情况，但它们在支持临床决策方面的能力，例如选择医学计算器，仍然存在不确定性。我们使用了35种临床计算器中的1,009个多项选择题-答案对组评估了九种LLMs，包括开源、专有和特定领域模型，并在一部分问题上将LLMs与人类进行了比较。尽管性能最好的LLM（OpenAI o1）在100个问题子集中的答案准确率为66.0%（置信区间：56.7-75.3%），但两位人类标注者以平均答案准确率为79.5%（置信区间：73.5-85.0%）的成绩在某些问题上超过了LLMs。最终，我们在包括风险分层和诊断在内的临床场景中评估了医学实习生和LLMs在推荐医学计算器方面的表现。通过错误分析发现，表现最佳的LLM继续在理解（错误的49.3%）和计算器知识（错误的7.1%）方面出现错误，我们的研究结果表明，LLMs在计算器推荐方面并不优于人类。