LLM2D
CypherBench:在大语言模型时代面向大规模现代知识图谱的精确检索方法研究
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era
作者: Yanlin Feng, Simone Papicchio, Sajjadur Rahman
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2412.18702v2

摘要

arXiv:2412.18702v2 宣布类型:替换-交叉 摘要:从图数据检索对于增强大语言模型(LLM)的开放域知识和私有企业数据至关重要,也是最近GraphRAG系统(edge等,2024)中的关键组件。尽管在知识图谱和知识问答领域已有几十年的研究,但领先的LLM框架(如Langchain和LlamaIndex)对现代百科知识图谱(如Wikidata)的支持仍然非常有限。在本文中,我们分析了根本原因,并认为现代RDF知识图谱(如Wikidata、Freebase)对LLM不够高效,原因在于其过于庞大的模式,远远超过了典型的LLM上下文窗口;使用资源标识符;关系类型重叠;以及缺乏规范化。为了解决这一问题,我们建议在底层RDF图之上提供属性图视图,使得LLM可以使用Cypher进行高效查询。我们通过在Wikidata上实现了这一想法,并引入了CypherBench,这是首个包含11个大规模、多领域属性图的基准,拥有780万个实体和超过1万个问题的基准。为了实现这一点,我们克服了几项关键挑战,包括开发RDF到属性图转换引擎、创建从文本到Cypher的任务生成系统性管道,以及设计新的评估指标。