摘要
arXiv:2502.13361v1 交叉类型:
摘要:医学问答需要广泛获取专门的概念知识。当前的 paradigm 是检索增强生成(RAG),它通过大规模语料库检索获取医学专业知识,并利用这些知识指导通用的大型语言模型(LLM)生成答案。然而,现有的检索方法往往忽视了事实知识的重要性,这限制了检索到的概念知识的相关性,并限制了其在现实世界场景中的适用性,例如基于电子健康记录(EHRs)进行临床决策。本文介绍了 RGAR,这是一种循环生成增强检索框架,可以从双源(即 EHRs 和语料库)检索相关事实和概念知识,并使它们相互作用和相互完善。通过在三个事实驱动的医学问答基准数据集上进行广泛的评估,RGAR 在医学 RAG 系统中取得了新的最佳性能。值得注意的是,配备 RGAR 的 Llama-3.1-8B-Instruct 模型超过了大幅增强的 RAG 加强版 GPT-3.5。我们的研究结果表明,提取事实知识对于检索的益处是一致的,这可以提高生成质量。