LLM2D

摘要

arXiv:2403.11204v2 宣告类型: replace-cross 摘要：大量复杂的神经网络架构，尤其是深度学习模型，在训练过程中消耗了大量资源。GPU 内存限制已成为训练这些庞大模型的一个显著瓶颈。现有的策略，包括数据并行、模型并行、流水线并行和完全分割的数据并行，只提供了一部分解决方案。尤其是模型并行，使整个模型分布在多个 GPU 上，但这些分区之间的数据通信会减慢训练速度。此外，每个 GPU 上存储辅助参数所需的大量内存开销增加了计算负担。与使用整个模型进行训练不同，本文提倡将模型分布在多个 GPU 上，并生成合成的中间标签来训练各个片段。这些标签通过随机过程生成，有助于减少内存开销和计算负担。这种方法通过减少数据通信的同时保持模型准确性，实现了更高效的训练过程。为了验证该方法，将一个6层的全连接神经网络分为两部分，并在扩展的 MNIST 数据集上评估其性能。实验结果表明，所提出的方法在测试准确性上与传统的训练方法相当，同时显著减少了内存和计算需求。这项工作有助于缓解训练大型神经网络的资源密集特性，为更高效的深度学习模型开发铺平了道路。