摘要
arXiv:2404.16130v2 宣布类型: 替换-交叉
摘要:通过检索增强生成(RAG)从外部知识源检索相关信息的能力使大型语言模型(LLMs)能够回答私人和/或先前未见过的文本文档集合的问题。然而,RAG 在针对整个文本语料库的全局问题上失败,例如“数据集中有哪些主要主题?”,因为这本质上是一个查询聚焦总结(QFS)任务,而不是明确的检索任务。与此同时,先前的QFS方法无法扩展到典型RAG系统索引的文本数量。为了结合这两种方法的优势,我们提出了GraphRAG,这是一种针对私人文本文档的基于图的方法,该方法可以同时根据用户问题的普遍性和源文本的数量进行扩展。我们的方法使用一个LLM在两个阶段构建图索引:首先从源文档中推断实体知识图,然后为所有紧密相关实体的组生成先验社区摘要。给定一个问题,每个社区摘要用于生成部分响应,然后所有部分响应再次被总结为最终的用户响应。对于一类针对包含100万词类别的数据集的全局意义问题,我们展示了GraphRAG在生成的答案的全面性和多样性方面显著优于传统RAG基线。