摘要
arXiv:2504.18082v1 宣传类型: cross
摘要: 图神经网络(GNNs)使得在现实世界的图上进行学习成为可能,而批量训练已成为训练GNNs的事实标准,因为它可以处理非常大的图并提高收敛性。当前的批量构建策略在很大程度上忽略了GNN训练的效率考虑。具体来说,现有的批量处理技术采用随机化方案以提高准确性和收敛性。但是,这些随机化方案往往不考虑图的结构性质(例如,社区结构),导致在GNN训练过程中出现高度不规则的内存访问模式,使得对片上GPU缓存的利用不充分。另一方面,尽管基于纯图结构的确定性批量处理在运行时间性能上很快,但缺乏随机性会同时损害最终模型的准确性和训练收敛速度。在本文中,我们提出了社区结构感知随机批量处理(COMM-RAND),这是一种新型方法,它弥补了上述极端之间的差距。COMM-RAND 在批量构建过程中允许实践者在纯粹的随机性和纯图结构意识之间探索空间,从而在相似的准确度下实现显著更高效的GNN训练。我们在四个流行的图学习基准上评估了COMM-RAND。COMM-RAND 将GNN训练时间缩短了最多2.76倍(平均1.8倍),同时准确度与流行的随机批量处理方法相比仅相差1.79%(平均0.42%)。