LLM2D
大规模评估嵌入模型在知识图谱完成中的性能
On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion
作者: Nasim Shirvani-Mahdavi, Farahnaz Akrami, Chengkai Li
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.08970v1

摘要

arXiv:2504.08970v1 宣告类型: cross 摘要: 知识图嵌入(KGE)模型在知识图完成方面得到了广泛研究,但其评估仍然受到不现实基准的限制。常用的数据集要么有误,要么太小,无法反映真实世界的数据。很少有研究探讨调解节点的作用,这些节点对于建模n元关系至关重要,或者考察模型在不同领域的性能变化。常用评估指标依赖于闭世界假设,该假设因正确预测缺失三元组而惩罚模型,这与链接预测的基本目标相矛盾。这些指标通常将准确性评估压缩为单一数值,掩盖了模型的特定优点和弱点。当前的评估协议在不现实的假设下进行操作,即实体的属性值,对于这些值需要进行预测,在预测之前就已经知晓。虽然属性预测、实体对排名和三元组分类等替代协议解决了一些这些限制,但它们仍然未充分利用。本文在大规模数据集FB-CVT-REV和FB+CVT-REV上全面评估了四种代表性的KGE模型。我们的分析揭示了关键洞察,包括小型和大型数据集之间显著的性能差异,无论是在相对排名还是绝对指标上,当n元关系被二元化时,系统性地高估了模型的能力,以及当前评估协议和指标的基本局限性。