LLM2D
注意力机制视角:探索LLM对图结构数据的处理
Attention Mechanisms Perspective: Exploring LLM Processing of Graph-Structured Data
作者: Zhong Guan, Likang Wu, Hongke Zhao, Ming He, Jianpin Fan
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02130v1

摘要

arXiv:2505.02130v1 宣布类型: 新 摘要: 注意机制对于大型语言模型(LLMs)的成功至关重要,推动了多个领域的显著进步。但是,对于需要强调拓扑连接的图结构数据而言,它们在固定链路上使用的消息传递机制(如图神经网络GNNs)相比之下效果更好。这引发了一个问题:“在自然语言场景中,注意机制是否失效?” 为了探索这一观察结果,我们从注意机制的角度出发开展了一项实证研究,以探讨LLM如何处理图结构数据。我们的目标是深入了解LLM在图结构上的注意力行为。我们发现了关于LLM如何应用注意力机制处理图结构数据的独特现象,并分析了这些发现以改进LLM对这类数据的建模。我们的研究主要发现如下:1) 虽然LLM可以识别图数据并捕捉文本节点间交互,但在图结构内部建模节点间关系时由于固有的架构限制而感到困难。2) LLM在图节点上的注意力分布不符合理想的结构模式,表明其未能适应图拓扑细节。3) 完全连接的注意力和固定连接都不是最优的;每种方法在其应用场景中都有特定的局限性。相反,中间状态的注意力窗口可以提高LLM的训练性能,并在推理过程中无缝过渡到完全连接的窗口。源代码: \href{https://github.com/millioniron/LLM_exploration}{LLM4Exploration}