摘要
图学习已成为解释和利用各种领域中关系数据的必不可少的方法,从推荐系统到社交网络分析。在这种情况下,各种 GNN 作为编码图结构信息的有效方法而出现。通过有效地捕获图的底层结构,这些 GNN 在提高图学习任务(如链接预测和节点分类)的性能方面显示出巨大潜力。然而,尽管取得了成功,但仍存在一项重大挑战:这些先进方法通常难以泛化到与训练实例显著不同的未见图数据。在这项工作中,我们的目标是通过开发一个通用的图基础模型来推进图学习范式。该模型旨在理解各种图数据中存在的复杂拓扑模式,使其能够在不同下游数据集的零样本图学习任务中脱颖而出。为了实现这一目标,我们在 OpenGraph 模型中解决了一些关键的技术挑战。首先,我们提出了一种统一的图标记器,使我们的图模型能够很好地泛化到未见图数据,即使底层图属性与训练期间遇到的属性存在显著差异。其次,我们开发了一个可扩展的图转换器作为基础编码器,它可以有效地捕获全局拓扑上下文中的节点间依赖关系。第三,我们引入了一种由 LLM 增强的數據增强机制,以缓解现实世界场景中数据稀缺的限制。大量实验验证了我们框架的有效性。通过使我们的 OpenGraph 适应新的图特征并理解各种图的细微差别,我们的方法在各种设置和领域中取得了显著的零样本图学习性能。