LLM2D

摘要

arXiv:2502.14802v1 Announce Type: cross 摘要：人类智能的关键特征之一是持续获取、组织和利用知识的能力，AI系统必须逼近这一点，以充分发挥其潜力。鉴于大规模语言模型（LLMs）持续学习的挑战，检索增强生成（RAG）已成为引入新信息的主要方式。然而，它依赖于向量检索，阻碍了其模仿人类长期记忆的动态和相互关联性质的能力。最近的RAG方法通过使用知识图等结构来增强向量嵌入，以解决这些差距中的部分问题，例如意义建构和关联性。然而，在更基本的实质性记忆任务上，它们的表现远低于标准的RAG。我们解决了这种意外的退化，并提出了一种名为HippoRAG 2的框架，在实质性记忆、意义建构和关联记忆任务上全面超越了标准的RAG。HippoRAG 2在此基础上延伸了HippoRAG中使用的个性化PageRank算法，并通过更深入的段落整合和更有效的LLM在线使用方式进行了增强。这种组合使得该RAG系统更接近于人类长期记忆的有效性，在关联记忆任务上比最先进的嵌入模型提高了7%的性能，同时在事实知识和意义建构记忆能力方面表现出色。这项工作为LLMs的非参数持续学习铺平了道路。我们的代码和数据将在https://github.com/OSU-NLP-Group/HippoRAG发布。