LLM2D

摘要

大型语言模型 (LLMs) 在增强临床决策支持系统方面的应用引起了越来越多的关注，但目前存在的缺陷，如幻觉和缺乏明确的来源引用，使其在临床环境中不可靠。本研究评估了 AvoMD 开发的基于 LLM 的软件 Ask Avo，该软件包含专有的语言模型增强检索 (LMAR) 系统、内置视觉引用提示以及针对与医师交互而设计的提示工程，并将其与 ChatGPT-4 在模拟临床场景环境中的最终用户体验方面进行了比较。62 名研究参与者向两个模型提出了 8 个源自不同专业的医疗指南文件的临床问题，每个响应在可信度、可操作性、相关性、全面性和友好格式方面从 1 到 5 进行评分。在所有标准上，Ask Avo 的表现明显优于 ChatGPT-4：可信度（4.52 对 3.34，p<0.001），可操作性（4.41 对 3.19，p<0.001），相关性（4.55 对 3.49，p<0.001），全面性（4.50 对 3.37，p<0.001）和友好格式（4.52 对 3.60，p<0.001）。我们的研究结果表明，针对临床医师需求而专门设计的 LLM 在用户体验方面可以比通用 LLM 有显著的改进。Ask Avo 基于证据的方法，针对临床医师的需求量身定制，显示出在采用 LLM 增强的临床决策支持软件方面的希望。