摘要
大型语言模型 (LLM) 在医疗应用方面展现出巨大潜力,但通常缺乏专业的临床知识。检索增强生成 (RAG) 允许使用特定领域的信息进行定制,使其适合医疗保健。本研究评估了 RAG 模型在确定手术适应症和提供术前指导方面的准确性、一致性和安全性。我们使用 35 个地方和 23 个国际术前指南开发了 LLM-RAG 模型,并将其与人工生成的响应进行测试。总共评估了 3,682 个响应。临床文件使用 Llamaindex 进行处理,评估了 10 个 LLM,包括 GPT3.5、GPT4 和 Claude-3。分析了 14 个临床场景,重点关注术前指导的七个方面。使用既定的指南和专家判断来确定正确答案,并以人工生成的答案作为比较。LLM-RAG 模型在 20 秒内生成了响应,明显快于临床医生(10 分钟)。GPT4 LLM-RAG 模型实现了最高的准确率(96.4% 对 86.6%,p=0.016),没有幻觉,并且生成了与临床医生相当的正确指令。结果在地方和国际指南中都保持一致。本研究证明了 LLM-RAG 模型在术前医疗保健任务中的潜力,突出了它们的效率、可扩展性和可靠性。