摘要
arXiv:2403.11204v2 宣告类型: replace-cross
摘要:大量复杂的神经网络架构,尤其是深度学习模型,在训练过程中消耗了大量资源。GPU 内存限制已成为训练这些庞大模型的一个显著瓶颈。现有的策略,包括数据并行、模型并行、流水线并行和完全分割的数据并行,只提供了一部分解决方案。尤其是模型并行,使整个模型分布在多个 GPU 上,但这些分区之间的数据通信会减慢训练速度。此外,每个 GPU 上存储辅助参数所需的大量内存开销增加了计算负担。与使用整个模型进行训练不同,本文提倡将模型分布在多个 GPU 上,并生成合成的中间标签来训练各个片段。这些标签通过随机过程生成,有助于减少内存开销和计算负担。这种方法通过减少数据通信的同时保持模型准确性,实现了更高效的训练过程。为了验证该方法,将一个6层的全连接神经网络分为两部分,并在扩展的 MNIST 数据集上评估其性能。实验结果表明,所提出的方法在测试准确性上与传统的训练方法相当,同时显著减少了内存和计算需求。这项工作有助于缓解训练大型神经网络的资源密集特性,为更高效的深度学习模型开发铺平了道路。