LLM2D

摘要

图学习已成为解释和利用各种领域中关系数据的必不可少的方法，从推荐系统到社交网络分析。在这种情况下，各种 GNN 作为编码图结构信息的有效方法而出现。通过有效地捕获图的底层结构，这些 GNN 在提高图学习任务（如链接预测和节点分类）的性能方面显示出巨大潜力。然而，尽管取得了成功，但仍存在一项重大挑战：这些先进方法通常难以泛化到与训练实例显著不同的未见图数据。在这项工作中，我们的目标是通过开发一个通用的图基础模型来推进图学习范式。该模型旨在理解各种图数据中存在的复杂拓扑模式，使其能够在不同下游数据集的零样本图学习任务中脱颖而出。为了实现这一目标，我们在 OpenGraph 模型中解决了一些关键的技术挑战。首先，我们提出了一种统一的图标记器，使我们的图模型能够很好地泛化到未见图数据，即使底层图属性与训练期间遇到的属性存在显著差异。其次，我们开发了一个可扩展的图转换器作为基础编码器，它可以有效地捕获全局拓扑上下文中的节点间依赖关系。第三，我们引入了一种由 LLM 增强的數據增强机制，以缓解现实世界场景中数据稀缺的限制。大量实验验证了我们框架的有效性。通过使我们的 OpenGraph 适应新的图特征并理解各种图的细微差别，我们的方法在各种设置和领域中取得了显著的零样本图学习性能。