LLM2D

摘要

arXiv:2307.02075v3 公告类型: 替换摘要: 实体对齐（EA）旨在识别在不同知识图谱（KGs）中引用同一现实身份的等价实体对。为了克服训练时提供的种子对齐数量不足的问题，最近的实体对齐模型利用伪标签策略，逐步将高置信度预测的未对齐实体对添加到种子对齐中进行模型训练。然而，在伪标签过程中确认偏误的负面影响已被很大程度上忽视，从而阻碍了实体对齐性能的提高。为了系统地对抗基于伪标签的实体对齐中的确认偏误，我们提出了一个统一的实体对齐伪标签框架（UPL-EA），该框架明确消除了伪标签错误，以提高实体对齐的准确性。UPL-EA 包含两个互补的组件：（1）基于运输距离（Optimal Transport, OT）的伪标签使用离散的OT建模作为一种有效的方法来确定实体对应关系，并减少两个KG中的错误匹配。提出了一种有效的标准来推断满足一对一对应关系的伪标签对齐；（2）并行伪标签集成通过结合多个独立并行训练的模型的预测来细化伪标签对齐。细化后的伪标签对齐随后用于增强种子对齐，从而加强后续模型训练以进行对齐推断。UPL-EA 在消除伪标签错误方面的有效性既得到了理论支持，也得到了实验验证。我们的广泛结果和深入分析表明，UPL-EA 在15个竞争基线中表现优于其他方法，并且其作为通用实体对齐伪标签框架的有效性。