摘要
大型语言模型 (LLMs) 在解决医学问题方面展现出巨大潜力。它们可以拥有相当多的医学知识,但仍然可能出现幻觉,并且在知识更新方面缺乏灵活性。虽然检索增强生成 (RAG) 被提出来增强 LLM 利用外部知识库进行医学问答的能力,但它在需要多轮信息搜索的复杂情况下仍然可能失败。为了解决这个问题,我们提出了针对医学的迭代式 RAG(i-MedRAG),其中 LLM 可以基于之前的信息搜索尝试迭代地提出后续问题。在 i-MedRAG 的每次迭代中,后续问题将由传统的 RAG 系统回答,并进一步用于指导下一迭代中的问题生成。我们的实验表明,与美国医学执照考试 (USMLE) 中临床片段中的复杂问题以及 Massive Multitask Language Understanding (MMLU) 数据集中各种知识测试相比,i-MedRAG 提高了各种 LLM 的性能。值得注意的是,我们的零样本 i-MedRAG 在 GPT-3.5 上超越了所有现有的提示工程和微调方法,在 MedQA 数据集上实现了 69.68% 的准确率。此外,我们描述了 i-MedRAG 在不同迭代的后续问题和每次迭代的不同问题数量下的扩展属性。我们的案例研究表明,i-MedRAG 可以灵活地提出后续问题以形成推理链,从而对医学问题进行深入分析。据我们所知,这是首次将后续问题纳入医学 RAG 的研究。i-MedRAG 的实现可在 https://github.com/Teddy-XiongGZ/MedRAG 获取。