摘要
arXiv:2502.09956v1 基础模型类型:跨领域
摘要:对知识图谱(KGs)构建基础模型的兴趣最近凸显了一个根本性的挑战:知识图谱数据相对匮乏。已知的最好知识图谱主要是由人类标注的、通过模式匹配创建的,或者通过早期的NLP技术提取的。虽然人类生成的知识图谱稀缺,但自动提取的知识图谱质量存疑。我们提出了一种解决这一数据匮乏问题的方法,即一种文本到知识图谱生成器(KGGen),这是一种使用语言模型从纯文本创建高质量图谱的软件包。与其他的知识图谱提取器不同,KGGen通过聚类相关实体来减少提取知识图谱的稀疏性。KGGen 可以作为Python库(通过`pip install kg-gen`安装)使用,使其对所有人都是可访问的。除了KGGen之外,我们还发布了首个基准测试,即节点和边的信息量度量(MINE),该测试评估提取器从纯文本生成有用知识图谱的能力。我们用新工具对现有提取器进行了基准测试,并展示了显著优越的性能。