LLM2D

摘要

arXiv:2412.18702v2 宣布类型:替换-交叉摘要：从图数据检索对于增强大语言模型（LLM）的开放域知识和私有企业数据至关重要，也是最近GraphRAG系统（edge等，2024）中的关键组件。尽管在知识图谱和知识问答领域已有几十年的研究，但领先的LLM框架（如Langchain和LlamaIndex）对现代百科知识图谱（如Wikidata）的支持仍然非常有限。在本文中，我们分析了根本原因，并认为现代RDF知识图谱（如Wikidata、Freebase）对LLM不够高效，原因在于其过于庞大的模式，远远超过了典型的LLM上下文窗口；使用资源标识符；关系类型重叠；以及缺乏规范化。为了解决这一问题，我们建议在底层RDF图之上提供属性图视图，使得LLM可以使用Cypher进行高效查询。我们通过在Wikidata上实现了这一想法，并引入了CypherBench，这是首个包含11个大规模、多领域属性图的基准，拥有780万个实体和超过1万个问题的基准。为了实现这一点，我们克服了几项关键挑战，包括开发RDF到属性图转换引擎、创建从文本到Cypher的任务生成系统性管道，以及设计新的评估指标。