LLM2D

摘要

arXiv:2504.08970v1 宣告类型: cross 摘要: 知识图嵌入（KGE）模型在知识图完成方面得到了广泛研究，但其评估仍然受到不现实基准的限制。常用的数据集要么有误，要么太小，无法反映真实世界的数据。很少有研究探讨调解节点的作用，这些节点对于建模n元关系至关重要，或者考察模型在不同领域的性能变化。常用评估指标依赖于闭世界假设，该假设因正确预测缺失三元组而惩罚模型，这与链接预测的基本目标相矛盾。这些指标通常将准确性评估压缩为单一数值，掩盖了模型的特定优点和弱点。当前的评估协议在不现实的假设下进行操作，即实体的属性值，对于这些值需要进行预测，在预测之前就已经知晓。虽然属性预测、实体对排名和三元组分类等替代协议解决了一些这些限制，但它们仍然未充分利用。本文在大规模数据集FB-CVT-REV和FB+CVT-REV上全面评估了四种代表性的KGE模型。我们的分析揭示了关键洞察，包括小型和大型数据集之间显著的性能差异，无论是在相对排名还是绝对指标上，当n元关系被二元化时，系统性地高估了模型的能力，以及当前评估协议和指标的基本局限性。