LLM2D

摘要

arXiv:2502.11228v1 类型: cross 摘要: 通过利用外部知识来源增强大型语言模型（LLMs）的领域特定问题回答（QA）任务的检索增强生成（RAG）方法正在得到提升。然而，传统的RAG系统主要侧重于相关性检索，往往在推理需要连接多个来源的信息时难以避免冗余。本文引入了Vendi-RAG，这是一种基于迭代过程的框架，联合优化检索多样性和答案质量。这种联合优化在多跳QA任务中显著提高了准确性。Vendi-RAG利用Vendi评分（VS），这是一种灵活的基于相似度的多样性度量，来促进文档检索中的语义多样性。它随后使用一个评估候选答案的LLM评估器，在推理步骤之后评估生成的答案，并输出一个评分，该评分供检索器在每次迭代中使用，以平衡获取文档的相关性和多样性。在HotpotQA、MuSiQue和2WikiMultiHopQA三个具有挑战性的数据集上的实验表明，Vendi-RAG在多跳推理任务中有效。与传统的单步和多步RAG方法相比，框架在准确率方面实现了显著提升，相比Adaptive-RAG，当前最佳基线，在HotpotQA上提高了+4.2%，在2WikiMultiHopQA上提高了+4.1%，在MuSiQue上提高了+1.3%。随着获取文档数量的增加，Vendi-RAG的优势更为明显。最后，我们对包括GPT-3.5、GPT-4和GPT-4o-mini在内的不同LLM骨干进行了Vendi-RAG的评估，并观察到一致的改进，这表明框架的优势是模型无关的。