LLM2D
知识图谱增强的多模态实体链接
KGMEL: Knowledge Graph-Enhanced Multimodal Entity Linking
作者: Juyeon Kim, Geon Lee, Taeuk Kim, Kijung Shin
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.15135v1

摘要

arXiv:2504.15135v1 声明类型: cross 摘要:实体链接(EL)将文本提及与其相应的知识库实体对齐,促进了诸如语义搜索和问答等应用。近期在多模态实体链接(MEL)方面的进展表明,结合文本和图像可以减少歧义并提高对齐准确度。然而,大多数现有的MEL方法忽视了以知识图谱(KG)三元组形式提供的丰富结构信息。在本文中,我们提出了一种新型框架KGMEL,该框架利用KG三元组来增强MEL。具体而言,该框架分为三个阶段:(1)生成:通过结合基于文本和图像的视觉语言模型生成高质量的三元组。 (2)检索:通过对比学习学习联合提及-实体表示,该表示综合了文本、图像和(生成的或KG)三元组,以检索每个提及的候选实体。 (3)重排序:对候选实体的KG三元组进行细化,并通过大型语言模型来识别与提及匹配最佳的实体。基准数据集上的广泛实验表明,KGMEL在现有方法中表现出色。我们的代码和数据集可在以下链接获取:https://github.com/juyeonnn/KGMEL。