LLM2D

摘要

arXiv:2412.14602v2 Announce Type: replace-cross 摘要：近年来，图神经网络（GNNs）在许多图挖掘任务中取得了显著的成功。然而，由于在训练过程中反复特征传播和非线性变换带来的高计算和存储成本，将它们扩展到大规模图仍然是一个挑战。应对这一挑战的一种常见方法是模型简化，该方法在预处理阶段只执行一次传播（P），然后通过不同的方式结合（C）这些接收域，再将它们输入到一个简单的模型中以获得更好的性能。尽管这些方法在预测性能和可扩展性方面表现出色，但它们仍然面临两个限制。首先，现有方法主要从模型角度来看待不同的C方法，而没有从数据为中心的角度关注P深度增加导致的性能退化问题，即过度平滑问题。其次，预处理开销占用了端到端处理时间的大部分，尤其是在大规模图的情况下。为了解决这些限制，我们提出了带有噪声掩蔽的随机游走（RMask）模块，该模块与现有的模型简化工作兼容。该模块使得能够探索更深的GNNs同时保持其可扩展性。与之前的模型简化工作不同，我们集中在连续的P上，并发现每个P中存在的噪声是导致过度平滑问题的原因，并使用高效的掩蔽机制来消除它们。在六个真实数据集上的实验结果表明，配备RMask的模型简化工作在性能上优于其原始版本，并能够在准确性和效率之间取得良好的权衡。