LLM2D

摘要

arXiv:2505.02130v1 宣布类型: 新摘要: 注意机制对于大型语言模型（LLMs）的成功至关重要，推动了多个领域的显著进步。但是，对于需要强调拓扑连接的图结构数据而言，它们在固定链路上使用的消息传递机制（如图神经网络GNNs）相比之下效果更好。这引发了一个问题：“在自然语言场景中，注意机制是否失效？” 为了探索这一观察结果，我们从注意机制的角度出发开展了一项实证研究，以探讨LLM如何处理图结构数据。我们的目标是深入了解LLM在图结构上的注意力行为。我们发现了关于LLM如何应用注意力机制处理图结构数据的独特现象，并分析了这些发现以改进LLM对这类数据的建模。我们的研究主要发现如下：1) 虽然LLM可以识别图数据并捕捉文本节点间交互，但在图结构内部建模节点间关系时由于固有的架构限制而感到困难。2) LLM在图节点上的注意力分布不符合理想的结构模式，表明其未能适应图拓扑细节。3) 完全连接的注意力和固定连接都不是最优的；每种方法在其应用场景中都有特定的局限性。相反，中间状态的注意力窗口可以提高LLM的训练性能，并在推理过程中无缝过渡到完全连接的窗口。源代码: \href{https://github.com/millioniron/LLM_exploration}{LLM4Exploration}