摘要
arXiv:2504.18070v1 公告类型: cross
摘要: 回忆增强生成(RAG)已成为为大型语言模型(LLMs)提供最新知识并在持续学习中缓解常见灾难性遗忘的标准非参数方法。然而,依赖独立段落检索的标准RAG方法无法捕捉人类记忆中对于复杂推理(联想性)和上下文理解(意义构建)至关重要的相互关联性。虽然像HippoRAG这样的结构化RAG方法利用从三元组构建的知识图谱(KGs),但固有的上下文损失限制了保真度。我们引入了PropRAG框架,该框架利用上下文丰富的命题并通过命题路径上的新颖的束搜索算法显式地发现多步推理链。关键的是,PropRAG的在线检索过程完全不依赖生成LLM,而是依赖高效的图遍历和预计算嵌入。这避免了在线LLM推理成本以及证据收集过程中的潜在不一致。LLM在离线使用时有效进行高质量命题提取,并在检索后用于答案生成。PropRAG在PopQA(55.3%)、2Wiki(93.7%)、HotpotQA(97.0%)和MuSiQue(77.3%)上实现了最先进的零样本Recall@5结果,同时还具有顶级的F1分数(例如,MuSiQue上的52.4%)。通过通过更丰富的表示和显式、无需LLM的在线路径查找来改进证据检索,PropRAG推动了非参数持续学习的发展。