摘要
arXiv:2503.06212v2 Announce Type: replace-cross
摘要:基于图的计算在广泛的应用中至关重要,其中图可以扩展到万亿条边。为了在如此大的图上实现高效的训练,常用的方法是采用小批量子图采样,这使得无需将整个图加载到内存中即可进行训练。然而,现有的解决方案面临着显著的权衡:如DGL和PyG这样的框架中的在线子图生成仅限于单个机器,导致严重的性能瓶颈,而在如GraphGen这样的预先计算子图方法中,虽然提高了采样效率,但也引入了较大的存储开销和较高的训练I/O成本。为了解决这些挑战,我们提出了**GraphGen+**,这是一种集成框架,实现了分布式子图生成与内存中图学习的同步,消除了对外部存储的需求,同时显著提高了效率。GraphGen+相对于传统的SQL-like方法在子图生成上实现了**27倍**的加速,并且相对于GraphGen实现了**1.3倍**的加速,支持每轮迭代训练100万节点,并消除了预先计算子图带来的开销,使其成为一种适用于大规模工业图学习的可扩展且实用的解决方案。