LLM2D
KGGen: 用语言模型从纯文本中提取知识图谱
KGGen: Extracting Knowledge Graphs from Plain Text with Language Models
作者: Belinda Mo, Kyssen Yu, Joshua Kazdan, Proud Mpala, Lisa Yu, Chris Cundy, Charilaos Kanatsoulis, Sanmi Koyejo
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09956v1

摘要

arXiv:2502.09956v1 基础模型类型:跨领域 摘要:对知识图谱(KGs)构建基础模型的兴趣最近凸显了一个根本性的挑战:知识图谱数据相对匮乏。已知的最好知识图谱主要是由人类标注的、通过模式匹配创建的,或者通过早期的NLP技术提取的。虽然人类生成的知识图谱稀缺,但自动提取的知识图谱质量存疑。我们提出了一种解决这一数据匮乏问题的方法,即一种文本到知识图谱生成器(KGGen),这是一种使用语言模型从纯文本创建高质量图谱的软件包。与其他的知识图谱提取器不同,KGGen通过聚类相关实体来减少提取知识图谱的稀疏性。KGGen 可以作为Python库(通过`pip install kg-gen`安装)使用,使其对所有人都是可访问的。除了KGGen之外,我们还发布了首个基准测试,即节点和边的信息量度量(MINE),该测试评估提取器从纯文本生成有用知识图谱的能力。我们用新工具对现有提取器进行了基准测试,并展示了显著优越的性能。