LLM2D

摘要

arXiv:2502.04591v1 声明类型：交叉摘要：图形神经网络（GNNs）中的过度光滑化是一个根本性的挑战：随着层的数量增加，节点嵌入变得越来越相似，模型性能会急剧下降。传统上，过度光滑化是通过衡量相邻节点特征相似性的指标来量化，如狄利克雷能量。虽然这些指标与过度光滑化有联系，但我们认为它们存在关键的局限性，无法可靠地在现实场景中捕捉到过度光滑化。例如，它们只能在非常深的网络和在权重和特征表示的范数下部分条件下提供有意义的见解。作为替代方案，我们建议通过检查特征表示的数值秩或有效秩来测量过度光滑化。我们为这种方法提供了理论支持，证明在非负训练权重的假设下，对于一系列非线性激活函数，特征表示的数值秩会收敛到1。据我们所知，这是第一个证明过度光滑化发生的定理，没有任何关于权重矩阵有界性的假设。除了理论发现外，我们还在多种图形架构上进行了详尽的数值评估。我们的结果表明，基于秩的指标能一致地捕捉到过度光滑化，而基于能量的指标通常会失败。值得注意的是，我们揭示了特征表示秩的显著下降与性能下降紧密相关，即使在能量指标保持不变的情况下也是如此。