摘要
arXiv:2503.21435v1 公告类型: 新
摘要: 图神经网络(GNNs),作为图结构学习的主要范式,长期以来一直面临着计算复杂性指数级增长和跨场景泛化能力不足的双重挑战。随着多模态学习的迅速发展,视觉-语言模型(VLMs)展示了出色的跨模态关系推理能力和泛化能力,从而为克服传统图学习范式固有的局限性开辟了新的途径。然而,当前的研究主要集中在研究VLMs在单一图推理方面的能力,这从根本上未能解决在实际应用场景中跨多个异构图数据进行协调推理的关键需求。为了解决这些限制,我们首次提出了针对VLMs的多图联合推理基准。该基准包含四种图类别:知识图、流程图、思维导图和路线图,每组图伴随着三个逐步增加难度的指令-响应对。通过利用这一基准,我们对最先进的VLMs进行了全面的能力评估,并在开源模型上进行了微调。本研究不仅填补了VLMs在多图推理方面的评估空白,还实证验证了它们在图结构学习中的泛化优势。