LLM2D
面向归纳式知识图谱补全的更优基准数据集
Towards Better Benchmark Datasets for Inductive Knowledge Graph Completion
作者: Harry Shomer, Jay Revolinsky, Jiliang Tang
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2406.11898v2

摘要

知识图谱补全(KGC)旨在预测知识图谱(KG)中缺失的事实。近年来,人们越来越关注设计能够在*归纳设置*中表现优异的 KGC 方法,在该设置中,推理中观察到的部分或全部实体和关系在训练期间未被观察到。许多基准数据集已被提出用于归纳 KGC,它们都是用于转导 KGC 的现有 KG 的子集。然而,我们发现构建归纳 KGC 数据集的当前程序无意中创建了一个捷径,即使忽略关系信息也可以被利用。具体来说,我们观察到个性化 PageRank(PPR)得分可以在大多数归纳数据集上实现强劲或接近最优的性能。在本文中,我们研究了这个问题的根本原因。利用这些见解,我们提出了一种构建归纳 KGC 数据集的替代策略,有助于缓解 PPR 捷径问题。然后,我们使用新构建的数据集对多种流行方法进行了基准测试,并分析了它们的性能。通过消除任何模糊性能的捷径,新的基准数据集有助于更好地了解归纳 KGC 的能力和挑战。