LLM2D

摘要

arXiv:2502.09956v1 基础模型类型：跨领域摘要：对知识图谱（KGs）构建基础模型的兴趣最近凸显了一个根本性的挑战：知识图谱数据相对匮乏。已知的最好知识图谱主要是由人类标注的、通过模式匹配创建的，或者通过早期的NLP技术提取的。虽然人类生成的知识图谱稀缺，但自动提取的知识图谱质量存疑。我们提出了一种解决这一数据匮乏问题的方法，即一种文本到知识图谱生成器（KGGen），这是一种使用语言模型从纯文本创建高质量图谱的软件包。与其他的知识图谱提取器不同，KGGen通过聚类相关实体来减少提取知识图谱的稀疏性。KGGen 可以作为Python库（通过`pip install kg-gen`安装）使用，使其对所有人都是可访问的。除了KGGen之外，我们还发布了首个基准测试，即节点和边的信息量度量（MINE），该测试评估提取器从纯文本生成有用知识图谱的能力。我们用新工具对现有提取器进行了基准测试，并展示了显著优越的性能。