摘要
arXiv:2412.05447v2 更新类型: 交叉替换
摘要:检索增强生成(RAG)是提高大规模语言模型(LLM)检索能力的领先且广泛使用的技术之一,但在商业应用场景中仍然面临诸多限制。RAG 主要依赖于嵌入空间中的查询-片段文本-文本相似性进行检索,无法捕捉片段之间的深层次语义关系,对分片策略高度敏感,并且容易产生幻觉。为了解决这些挑战,我们提出了 TOBUGraph,这是一种基于图的检索框架,它能够动态且自动地从非结构化数据中构建知识图。利用大语言模型(LLMs),TOBUGraph 提取结构化知识以及数据之间的多样关系,超越了 RAG 的文本-文本相似性。检索通过图遍历实现,利用提取出的关系和结构来提升检索准确性,避免了分片配置的需求,同时减少了幻觉的发生。我们通过 TOBU 在生产环境中的一项实际应用,展示了 TOBUGraph 在个人记忆组织和检索方面的有效性。使用真实用户数据的评估结果显示,TOBUGraph 在精确度和召回率上均优于多种 RAG 实现,通过提升检索准确性显著改善了用户体验。