LLM2D

摘要

arXiv:2404.16130v2 宣布类型: 替换-交叉摘要：通过检索增强生成（RAG）从外部知识源检索相关信息的能力使大型语言模型（LLMs）能够回答私人和/或先前未见过的文本文档集合的问题。然而，RAG 在针对整个文本语料库的全局问题上失败，例如“数据集中有哪些主要主题？”，因为这本质上是一个查询聚焦总结（QFS）任务，而不是明确的检索任务。与此同时，先前的QFS方法无法扩展到典型RAG系统索引的文本数量。为了结合这两种方法的优势，我们提出了GraphRAG，这是一种针对私人文本文档的基于图的方法，该方法可以同时根据用户问题的普遍性和源文本的数量进行扩展。我们的方法使用一个LLM在两个阶段构建图索引：首先从源文档中推断实体知识图，然后为所有紧密相关实体的组生成先验社区摘要。给定一个问题，每个社区摘要用于生成部分响应，然后所有部分响应再次被总结为最终的用户响应。对于一类针对包含100万词类别的数据集的全局意义问题，我们展示了GraphRAG在生成的答案的全面性和多样性方面显著优于传统RAG基线。