摘要
大型语言模型 (LLMs) 在增强临床决策支持系统方面的应用引起了越来越多的关注,但目前存在的缺陷,如幻觉和缺乏明确的来源引用,使其在临床环境中不可靠。本研究评估了 AvoMD 开发的基于 LLM 的软件 Ask Avo,该软件包含专有的语言模型增强检索 (LMAR) 系统、内置视觉引用提示以及针对与医师交互而设计的提示工程,并将其与 ChatGPT-4 在模拟临床场景环境中的最终用户体验方面进行了比较。62 名研究参与者向两个模型提出了 8 个源自不同专业的医疗指南文件的临床问题,每个响应在可信度、可操作性、相关性、全面性和友好格式方面从 1 到 5 进行评分。在所有标准上,Ask Avo 的表现明显优于 ChatGPT-4:可信度(4.52 对 3.34,p<0.001),可操作性(4.41 对 3.19,p<0.001),相关性(4.55 对 3.49,p<0.001),全面性(4.50 对 3.37,p<0.001)和友好格式(4.52 对 3.60,p<0.001)。我们的研究结果表明,针对临床医师需求而专门设计的 LLM 在用户体验方面可以比通用 LLM 有显著的改进。Ask Avo 基于证据的方法,针对临床医师的需求量身定制,显示出在采用 LLM 增强的临床决策支持软件方面的希望。