LLM2D

摘要

arXiv:2505.03799v1 Announce Type: cross 摘要：大规模语言模型（LLMs）在各种自然语言处理任务中展示了强大的能力；然而，它们在图相关问题中的应用受到限制，主要原因在于可扩展性的约束以及缺乏专门处理图结构的机制。现有的方法主要将LLMs与图神经网络（GNNs）结合使用，使用GNNs作为特征编码器或辅助组件。然而，在大规模图结构中直接在LLMs中编码图结构的研究尚不足，特别是在由于标记限制导致难以有效表示的情况下。为了解决这些挑战，我们提出了一种新的指令调优图语言模型（InstructGLM）框架——SDM-InstructGLM，该框架在不依赖GNNs的情况下增强了可扩展性和效率。我们的方法引入了一种基于相似度-度数的偏差随机游走机制，该机制根据节点特征相似性和度中心性选择性地采样和编码图信息，确保LLM中的自适应和结构化表示。这种方法显著提高了标记效率，减轻了由于随机采样造成的信息损失，并在节点分类和链接预测等图基任务中提升了性能。此外，我们的结果表明LLM在图处理方面的可行性，使通过指令为基础的微调获得可扩展且可解释的图语言模型（GLMs）成为可能。本项工作为无GNN的图学习方法铺平了道路，利用LLMs作为独立的图推理模型。我们的源代码已发布在GitHub上。