LLM2D

摘要

arXiv:2502.13361v1 交叉类型: 摘要：医学问答需要广泛获取专门的概念知识。当前的 paradigm 是检索增强生成（RAG），它通过大规模语料库检索获取医学专业知识，并利用这些知识指导通用的大型语言模型（LLM）生成答案。然而，现有的检索方法往往忽视了事实知识的重要性，这限制了检索到的概念知识的相关性，并限制了其在现实世界场景中的适用性，例如基于电子健康记录（EHRs）进行临床决策。本文介绍了 RGAR，这是一种循环生成增强检索框架，可以从双源（即 EHRs 和语料库）检索相关事实和概念知识，并使它们相互作用和相互完善。通过在三个事实驱动的医学问答基准数据集上进行广泛的评估，RGAR 在医学 RAG 系统中取得了新的最佳性能。值得注意的是，配备 RGAR 的 Llama-3.1-8B-Instruct 模型超过了大幅增强的 RAG 加强版 GPT-3.5。我们的研究结果表明，提取事实知识对于检索的益处是一致的，这可以提高生成质量。