LLM2D

摘要

学习高质量的多模态实体表示是多模态知识图 (MMKG) 表示学习的重要目标，这可以增强 MMKG 中的推理任务，例如 MMKG 补全 (MMKGC)。主要挑战在于协同建模海量三元组中隐藏的结构信息和实体的多模态特征。现有的方法侧重于设计优雅的实体级多模态融合策略，但忽略了利用不同关系上下文下模态中隐藏的多视角特征。为了解决这个问题，我们引入了一个新的框架，即模态知识专家混合 (简称 MoMoK)，以学习自适应的多模态实体表示，以更好地进行 MMKGC。我们设计了关系引导的模态知识专家来获取关系感知的模态嵌入，并整合来自多模态的预测以实现联合决策。此外，我们通过最小化专家之间的互信息来解耦专家。在四个公共 MMKG 基准上的实验表明了 MoMoK 在复杂场景下的出色性能。