摘要
尽管大型语言模型(LLMs)在医学领域具有潜力,但它们可能生成缺乏支持证据或基于幻觉证据的响应。虽然检索增强生成(RAG)是解决这一问题的流行方法,但很少有研究在下游领域特定应用中实施和评估RAG。我们开发了一个包含70,000份眼科特定文档的RAG管道,该管道在推理时检索相关文档以增强LLMs。在一项针对长篇消费者健康问题的案例研究中,我们系统地评估了包括超过500条参考文献的LLMs响应,这些响应来自100个问题,由10位医疗专业人员进行评估。评估重点在于证据的事实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。没有RAG的LLMs总共提供了252条参考文献,其中45.3%是幻觉的,34.1%包含轻微错误,20.6%是正确的。相比之下,使用RAG的LLMs显著提高了准确性(54.5%是正确的)并降低了错误率(18.8%有轻微幻觉,26.7%有错误)。RAG检索的前10份文档中有62.5%被选为LLM响应中的顶级参考文献,平均排名为4.9。使用RAG还改善了证据归属(从1.85增加到2.49,P<0.001),尽管在准确性(从3.52降至3.23,P=0.03)和完整性(从3.47降至3.27,P=0.17)方面略有下降。结果表明,LLMs在响应中经常表现出幻觉和错误的证据,这引发了医学领域下游应用的担忧。RAG显著减少了此类证据的比例,但仍面临挑战。