摘要
arXiv:2505.03799v1 Announce Type: cross
摘要:大规模语言模型(LLMs)在各种自然语言处理任务中展示了强大的能力;然而,它们在图相关问题中的应用受到限制,主要原因在于可扩展性的约束以及缺乏专门处理图结构的机制。现有的方法主要将LLMs与图神经网络(GNNs)结合使用,使用GNNs作为特征编码器或辅助组件。然而,在大规模图结构中直接在LLMs中编码图结构的研究尚不足,特别是在由于标记限制导致难以有效表示的情况下。为了解决这些挑战,我们提出了一种新的指令调优图语言模型(InstructGLM)框架——SDM-InstructGLM,该框架在不依赖GNNs的情况下增强了可扩展性和效率。我们的方法引入了一种基于相似度-度数的偏差随机游走机制,该机制根据节点特征相似性和度中心性选择性地采样和编码图信息,确保LLM中的自适应和结构化表示。这种方法显著提高了标记效率,减轻了由于随机采样造成的信息损失,并在节点分类和链接预测等图基任务中提升了性能。此外,我们的结果表明LLM在图处理方面的可行性,使通过指令为基础的微调获得可扩展且可解释的图语言模型(GLMs)成为可能。本项工作为无GNN的图学习方法铺平了道路,利用LLMs作为独立的图推理模型。我们的源代码已发布在GitHub上。