LLM2D

摘要

尽管大型语言模型（LLMs）在医学领域具有潜力，但它们可能生成缺乏支持证据或基于幻觉证据的响应。虽然检索增强生成（RAG）是解决这一问题的流行方法，但很少有研究在下游领域特定应用中实施和评估RAG。我们开发了一个包含70,000份眼科特定文档的RAG管道，该管道在推理时检索相关文档以增强LLMs。在一项针对长篇消费者健康问题的案例研究中，我们系统地评估了包括超过500条参考文献的LLMs响应，这些响应来自100个问题，由10位医疗专业人员进行评估。评估重点在于证据的事实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。没有RAG的LLMs总共提供了252条参考文献，其中45.3%是幻觉的，34.1%包含轻微错误，20.6%是正确的。相比之下，使用RAG的LLMs显著提高了准确性（54.5%是正确的）并降低了错误率（18.8%有轻微幻觉，26.7%有错误）。RAG检索的前10份文档中有62.5%被选为LLM响应中的顶级参考文献，平均排名为4.9。使用RAG还改善了证据归属（从1.85增加到2.49，P<0.001），尽管在准确性（从3.52降至3.23，P=0.03）和完整性（从3.47降至3.27，P=0.17）方面略有下降。结果表明，LLMs在响应中经常表现出幻觉和错误的证据，这引发了医学领域下游应用的担忧。RAG显著减少了此类证据的比例，但仍面临挑战。