LLM2D
无监督的鲁棒跨语言实体对齐通过带实体和关系文本的邻居三元组匹配
Unsupervised Robust Cross-Lingual Entity Alignment via Neighbor Triple Matching with Entity and Relation Texts
作者: Soojin Yoon, Sungho Ko, Tongyoung Kim, SeongKu Kang, Jinyoung Yeo, Dongha Lee
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2407.15588v5

摘要

arXiv:2407.15588v5 交叉语言实体对齐 (EA) 类型: 替换交叉 摘要:跨语言实体对齐 (EA) 允许将多个知识图谱 (KGs) 跨语言集成,提供用户无缝访问多样和全面的知识。现有方法主要是监督学习方法,面临着获取标记实体对的挑战。为了解决这个问题,近期的研究转向了自监督和无监督框架。尽管这些方法在实践中表现出有效性,但它们仍然存在一些局限性:(1) 关系传递:主要集中在实体上,忽视了关系的语义信息,(2) 同构假设:假设源图和目标图之间的同构性,这会导致噪声并降低对齐精度,(3) 噪声脆弱性:容易受到实体文本特征中的噪声的影响,尤其是在遇到不一致的翻译或词外 (Out-of-Vocabulary, OOV) 问题时。本文提出了 ERAlign,一种无监督且鲁棒的跨语言 EA 管道,通过基于关系和实体语义文本特征的邻居三元组匹配策略同时进行实体级和关系级对齐。其修正步骤通过基于邻居三元组匹配融合实体级和关系级对齐结果以迭代提高结果。额外的验证步骤检查实体的邻居三元组作为线性化的文本。该“对齐-验证”管道严格评估对齐结果,即使在实体文本特征有噪声的情况下也能实现近乎完美的对齐。我们大量的实验证明,ERAlign 的鲁棒性和通用性提高了 EA 任务的准确性和有效性,对知识导向的应用具有重要的贡献。