LLM2D
检索增强生成:面向十种大型语言模型及其在评估医疗适宜性方面的泛化性
oRetrieval Augmented Generation for 10 Large Language Models and its Generalizability in Assessing Medical Fitness
作者: Yu He Ke, Liyuan Jin, Kabilan Elangovan, Hairil Rizal Abdullah, Nan Liu, Alex Tiong Heng Sia, Chai Rick Soh, Joshua Yi Min Tung, Jasmine Chiat Ling Ong, Chang-Fu Kuo, Shao-Chun Wu, Vesela P. Kovacheva, Daniel Shu Wei Ting
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2410.08431v1

摘要

大型语言模型 (LLM) 在医疗应用方面展现出巨大潜力,但通常缺乏专业的临床知识。检索增强生成 (RAG) 允许使用特定领域的信息进行定制,使其适合医疗保健。本研究评估了 RAG 模型在确定手术适应症和提供术前指导方面的准确性、一致性和安全性。我们使用 35 个地方和 23 个国际术前指南开发了 LLM-RAG 模型,并将其与人工生成的响应进行测试。总共评估了 3,682 个响应。临床文件使用 Llamaindex 进行处理,评估了 10 个 LLM,包括 GPT3.5、GPT4 和 Claude-3。分析了 14 个临床场景,重点关注术前指导的七个方面。使用既定的指南和专家判断来确定正确答案,并以人工生成的答案作为比较。LLM-RAG 模型在 20 秒内生成了响应,明显快于临床医生(10 分钟)。GPT4 LLM-RAG 模型实现了最高的准确率(96.4% 对 86.6%,p=0.016),没有幻觉,并且生成了与临床医生相当的正确指令。结果在地方和国际指南中都保持一致。本研究证明了 LLM-RAG 模型在术前医疗保健任务中的潜力,突出了它们的效率、可扩展性和可靠性。