LLM2D

摘要

arXiv:2412.06206v2 文本型: replace-cross 摘要：索引是增强检索生成系统（RAG）性能的重要步骤。然而，现有方法基于语义相似性（相似性）或相关信息（关联性）组织数据，但未能从两个方面进行全面覆盖。我们的分析表明，仅建模一个方面会导致知识综合不足，导致在需要多跳推理的复杂任务中表现不佳。在本文中，我们提出了SiReRAG，一种新型的RAG索引方法，明确考虑了相似性和相关性。在相似性方面，我们遵循现有工作并探索了一些变体以基于递归总结构建相似性树。在相关性方面，SiReRAG从文本中提取命题和实体，通过共享实体对命题进行分组，并生成递归摘要以构建相关性树。我们将相似性和相关性树索引并展平为统一的检索池。我们的实验表明，SiReRAG在三个多跳数据集（MuSiQue、2WikiMultiHopQA 和 HotpotQA）上一致优于最先进的索引方法，平均F1分数提高了1.9%。作为一种相对高效的解决方案，SiReRAG显著增强了现有的重排序方法，平均F1分数提高了7.8%。我们的代码可在 https://github.com/SalesforceAIResearch/SiReRAG 获取。