LLM2D
SiReRAG: 索引多跳推理中的相似和相关信息
SiReRAG: Indexing Similar and Related Information for Multihop Reasoning
作者: Nan Zhang, Prafulla Kumar Choubey, Alexander Fabbri, Gabriel Bernadett-Shapiro, Rui Zhang, Prasenjit Mitra, Caiming Xiong, Chien-Sheng Wu
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2412.06206v2

摘要

arXiv:2412.06206v2 文本型: replace-cross 摘要:索引是增强检索生成系统(RAG)性能的重要步骤。然而,现有方法基于语义相似性(相似性)或相关信息(关联性)组织数据,但未能从两个方面进行全面覆盖。我们的分析表明,仅建模一个方面会导致知识综合不足,导致在需要多跳推理的复杂任务中表现不佳。在本文中,我们提出了SiReRAG,一种新型的RAG索引方法,明确考虑了相似性和相关性。在相似性方面,我们遵循现有工作并探索了一些变体以基于递归总结构建相似性树。在相关性方面,SiReRAG从文本中提取命题和实体,通过共享实体对命题进行分组,并生成递归摘要以构建相关性树。我们将相似性和相关性树索引并展平为统一的检索池。我们的实验表明,SiReRAG在三个多跳数据集(MuSiQue、2WikiMultiHopQA 和 HotpotQA)上一致优于最先进的索引方法,平均F1分数提高了1.9%。作为一种相对高效的解决方案,SiReRAG显著增强了现有的重排序方法,平均F1分数提高了7.8%。我们的代码可在 https://github.com/SalesforceAIResearch/SiReRAG 获取。