LLM2D

摘要

知识图谱嵌入模型将实体和边表示在低维空间中，在解决与知识图谱（KG）补全和探索相关的任务方面取得了极大的成功。大多数此类模型训练的关键方面之一是学会区分真实的陈述（正例）和虚假的陈述（负例）。然而，负例的定义方式并非易事，因为知识图谱中缺失的事实并不一定就是错误的，并且几乎从未给出真实的负例集合。这使得合成负例的生成成为必要。不同的生成策略会严重影响嵌入的质量，使其成为需要考虑的首要方面。我们改进了一种在训练过程中生成扰动数据的策略，该策略遵守关系的定义域和值域，我们扩展了其功能，并证明我们的方法为标准基准数据集带来了显著的改进（+10% MRR），对于更大的本体支持数据集则带来了超过+150% MRR 的改进。