LLM2D

摘要

大型语言模型 (LLM) 在医疗应用方面展现出巨大潜力，但通常缺乏专业的临床知识。检索增强生成 (RAG) 允许使用特定领域的信息进行定制，使其适合医疗保健。本研究评估了 RAG 模型在确定手术适应症和提供术前指导方面的准确性、一致性和安全性。我们使用 35 个地方和 23 个国际术前指南开发了 LLM-RAG 模型，并将其与人工生成的响应进行测试。总共评估了 3,682 个响应。临床文件使用 Llamaindex 进行处理，评估了 10 个 LLM，包括 GPT3.5、GPT4 和 Claude-3。分析了 14 个临床场景，重点关注术前指导的七个方面。使用既定的指南和专家判断来确定正确答案，并以人工生成的答案作为比较。LLM-RAG 模型在 20 秒内生成了响应，明显快于临床医生（10 分钟）。GPT4 LLM-RAG 模型实现了最高的准确率（96.4% 对 86.6%，p=0.016），没有幻觉，并且生成了与临床医生相当的正确指令。结果在地方和国际指南中都保持一致。本研究证明了 LLM-RAG 模型在术前医疗保健任务中的潜力，突出了它们的效率、可扩展性和可靠性。