摘要
arXiv:2307.02075v2 公告类型: 替换
摘要:实体对齐(EA)旨在识别不同知识图(KGs)中指代同一现实身份的等效实体对。为了系统地应对基于伪标签的实体对齐中的确认偏差,我们提出了一种统一的伪标签框架用于实体对齐(UPL-EA),该框架明确消除了伪标签错误,以提高实体对齐的准确性。UPL-EA 包含两个互补的组件:(1) 基于运筹学(OT)的伪标签使用离散的 OT 模型作为一种有效的方法,以便更准确地确定两个 KG 之间实体的对应关系,并减轻错误匹配的负面影响。进一步设计了一个简单但非常有效的标准来在每次迭代中推导出满足一对一对应关系的伪标签实体对。(2) 跨迭代伪标签校准在多个连续迭代中进行操作,通过减少局部伪标签选择的变异来进一步提高伪标签的精度率,并具备理论保证。这两个组件分别设计来消除通过我们分析识别出的 I 类和 II 类伪标签错误。校准后的伪标签随后被用于增强先前对齐种子以加强后续模型训练用于对齐推断。UPL-EA 在消除伪标签错误方面的有效性得到了理论上的支持和实验证明。实验结果表明,我们的方法在有限的先前对齐种子的情况下可以实现竞争力的表现。