摘要
arXiv:2502.14802v1 Announce Type: cross
摘要:人类智能的关键特征之一是持续获取、组织和利用知识的能力,AI系统必须逼近这一点,以充分发挥其潜力。鉴于大规模语言模型(LLMs)持续学习的挑战,检索增强生成(RAG)已成为引入新信息的主要方式。然而,它依赖于向量检索,阻碍了其模仿人类长期记忆的动态和相互关联性质的能力。最近的RAG方法通过使用知识图等结构来增强向量嵌入,以解决这些差距中的部分问题,例如意义建构和关联性。然而,在更基本的实质性记忆任务上,它们的表现远低于标准的RAG。我们解决了这种意外的退化,并提出了一种名为HippoRAG 2的框架,在实质性记忆、意义建构和关联记忆任务上全面超越了标准的RAG。HippoRAG 2在此基础上延伸了HippoRAG中使用的个性化PageRank算法,并通过更深入的段落整合和更有效的LLM在线使用方式进行了增强。这种组合使得该RAG系统更接近于人类长期记忆的有效性,在关联记忆任务上比最先进的嵌入模型提高了7%的性能,同时在事实知识和意义建构记忆能力方面表现出色。这项工作为LLMs的非参数持续学习铺平了道路。我们的代码和数据将在https://github.com/OSU-NLP-Group/HippoRAG发布。