LLM2D

摘要

知识图谱补全（KGC）旨在预测知识图谱（KG）中缺失的事实。近年来，人们越来越关注设计能够在*归纳设置*中表现优异的 KGC 方法，在该设置中，推理中观察到的部分或全部实体和关系在训练期间未被观察到。许多基准数据集已被提出用于归纳 KGC，它们都是用于转导 KGC 的现有 KG 的子集。然而，我们发现构建归纳 KGC 数据集的当前程序无意中创建了一个捷径，即使忽略关系信息也可以被利用。具体来说，我们观察到个性化 PageRank（PPR）得分可以在大多数归纳数据集上实现强劲或接近最优的性能。在本文中，我们研究了这个问题的根本原因。利用这些见解，我们提出了一种构建归纳 KGC 数据集的替代策略，有助于缓解 PPR 捷径问题。然后，我们使用新构建的数据集对多种流行方法进行了基准测试，并分析了它们的性能。通过消除任何模糊性能的捷径，新的基准数据集有助于更好地了解归纳 KGC 的能力和挑战。