LLM2D

摘要

arXiv:2504.15135v1 声明类型: cross 摘要：实体链接（EL）将文本提及与其相应的知识库实体对齐，促进了诸如语义搜索和问答等应用。近期在多模态实体链接（MEL）方面的进展表明，结合文本和图像可以减少歧义并提高对齐准确度。然而，大多数现有的MEL方法忽视了以知识图谱（KG）三元组形式提供的丰富结构信息。在本文中，我们提出了一种新型框架KGMEL，该框架利用KG三元组来增强MEL。具体而言，该框架分为三个阶段：（1）生成：通过结合基于文本和图像的视觉语言模型生成高质量的三元组。（2）检索：通过对比学习学习联合提及-实体表示，该表示综合了文本、图像和（生成的或KG）三元组，以检索每个提及的候选实体。（3）重排序：对候选实体的KG三元组进行细化，并通过大型语言模型来识别与提及匹配最佳的实体。基准数据集上的广泛实验表明，KGMEL在现有方法中表现出色。我们的代码和数据集可在以下链接获取：https://github.com/juyeonnn/KGMEL。