LLM2D

摘要

大型语言模型 (LLMs) 在解决医学问题方面展现出巨大潜力。它们可以拥有相当多的医学知识，但仍然可能出现幻觉，并且在知识更新方面缺乏灵活性。虽然检索增强生成 (RAG) 被提出来增强 LLM 利用外部知识库进行医学问答的能力，但它在需要多轮信息搜索的复杂情况下仍然可能失败。为了解决这个问题，我们提出了针对医学的迭代式 RAG（i-MedRAG），其中 LLM 可以基于之前的信息搜索尝试迭代地提出后续问题。在 i-MedRAG 的每次迭代中，后续问题将由传统的 RAG 系统回答，并进一步用于指导下一迭代中的问题生成。我们的实验表明，与美国医学执照考试 (USMLE) 中临床片段中的复杂问题以及 Massive Multitask Language Understanding (MMLU) 数据集中各种知识测试相比，i-MedRAG 提高了各种 LLM 的性能。值得注意的是，我们的零样本 i-MedRAG 在 GPT-3.5 上超越了所有现有的提示工程和微调方法，在 MedQA 数据集上实现了 69.68% 的准确率。此外，我们描述了 i-MedRAG 在不同迭代的后续问题和每次迭代的不同问题数量下的扩展属性。我们的案例研究表明，i-MedRAG 可以灵活地提出后续问题以形成推理链，从而对医学问题进行深入分析。据我们所知，这是首次将后续问题纳入医学 RAG 的研究。i-MedRAG 的实现可在 https://github.com/Teddy-XiongGZ/MedRAG 获取。