摘要
arXiv:2502.11228v1 类型: cross
摘要: 通过利用外部知识来源增强大型语言模型(LLMs)的领域特定问题回答(QA)任务的检索增强生成(RAG)方法正在得到提升。然而,传统的RAG系统主要侧重于相关性检索,往往在推理需要连接多个来源的信息时难以避免冗余。本文引入了Vendi-RAG,这是一种基于迭代过程的框架,联合优化检索多样性和答案质量。这种联合优化在多跳QA任务中显著提高了准确性。Vendi-RAG利用Vendi评分(VS),这是一种灵活的基于相似度的多样性度量,来促进文档检索中的语义多样性。它随后使用一个评估候选答案的LLM评估器,在推理步骤之后评估生成的答案,并输出一个评分,该评分供检索器在每次迭代中使用,以平衡获取文档的相关性和多样性。在HotpotQA、MuSiQue和2WikiMultiHopQA三个具有挑战性的数据集上的实验表明,Vendi-RAG在多跳推理任务中有效。与传统的单步和多步RAG方法相比,框架在准确率方面实现了显著提升,相比Adaptive-RAG,当前最佳基线,在HotpotQA上提高了+4.2%,在2WikiMultiHopQA上提高了+4.1%,在MuSiQue上提高了+1.3%。随着获取文档数量的增加,Vendi-RAG的优势更为明显。最后,我们对包括GPT-3.5、GPT-4和GPT-4o-mini在内的不同LLM骨干进行了Vendi-RAG的评估,并观察到一致的改进,这表明框架的优势是模型无关的。