摘要
arXiv:2412.06206v2 文本型: replace-cross
摘要:索引是增强检索生成系统(RAG)性能的重要步骤。然而,现有方法基于语义相似性(相似性)或相关信息(关联性)组织数据,但未能从两个方面进行全面覆盖。我们的分析表明,仅建模一个方面会导致知识综合不足,导致在需要多跳推理的复杂任务中表现不佳。在本文中,我们提出了SiReRAG,一种新型的RAG索引方法,明确考虑了相似性和相关性。在相似性方面,我们遵循现有工作并探索了一些变体以基于递归总结构建相似性树。在相关性方面,SiReRAG从文本中提取命题和实体,通过共享实体对命题进行分组,并生成递归摘要以构建相关性树。我们将相似性和相关性树索引并展平为统一的检索池。我们的实验表明,SiReRAG在三个多跳数据集(MuSiQue、2WikiMultiHopQA 和 HotpotQA)上一致优于最先进的索引方法,平均F1分数提高了1.9%。作为一种相对高效的解决方案,SiReRAG显著增强了现有的重排序方法,平均F1分数提高了7.8%。我们的代码可在 https://github.com/SalesforceAIResearch/SiReRAG 获取。