摘要
arXiv:2412.10136v2 通知类型: replace-cross
摘要:图是许多现实世界应用中常见的结构,例如药物发现、推荐系统和社会网络分析。为了建模图结构数据,图神经网络(GNNs)已成为一种流行的工具。然而,在跨图学习领域,即多个图具有不同的特征空间时,现有的GNN架构遇到了挑战。为了解决这一问题,最近的方法引入了带有文本属性的图(TAGs),其中每个节点都关联着一个文本描述,这些描述可以通过文本编码器投影到统一的特征空间中。虽然这种方法前景看好,但它高度依赖于能够获取带有文本属性的图数据,而在实践中这往往难以获得。为了解决这一差距,我们提出了一种名为拓扑感知节点描述合成(TANS)的新型方法,利用大语言模型(LLMs)将现有图转化为带有文本属性的图。关键思想是将拓扑信息整合到LLMs中,以解释图拓扑如何影响节点语义。我们在文本丰富的、文本受限的和文本自由的图上评估了我们的TANS方法,展示了其适用性。值得注意的是,在文本自由的图上,我们的方法在无需人工设计节点特征的情况下显著优于现有的方法,展示了在缺乏文本信息的情况下预处理图结构数据的大语言模型的潜力。代码和数据可在 https://github.com/Zehong-Wang/TANS 获得。