摘要
arXiv:2412.18702v2 宣布类型:替换-交叉
摘要:从图数据检索对于增强大语言模型(LLM)的开放域知识和私有企业数据至关重要,也是最近GraphRAG系统(edge等,2024)中的关键组件。尽管在知识图谱和知识问答领域已有几十年的研究,但领先的LLM框架(如Langchain和LlamaIndex)对现代百科知识图谱(如Wikidata)的支持仍然非常有限。在本文中,我们分析了根本原因,并认为现代RDF知识图谱(如Wikidata、Freebase)对LLM不够高效,原因在于其过于庞大的模式,远远超过了典型的LLM上下文窗口;使用资源标识符;关系类型重叠;以及缺乏规范化。为了解决这一问题,我们建议在底层RDF图之上提供属性图视图,使得LLM可以使用Cypher进行高效查询。我们通过在Wikidata上实现了这一想法,并引入了CypherBench,这是首个包含11个大规模、多领域属性图的基准,拥有780万个实体和超过1万个问题的基准。为了实现这一点,我们克服了几项关键挑战,包括开发RDF到属性图转换引擎、创建从文本到Cypher的任务生成系统性管道,以及设计新的评估指标。