LLM2D

摘要

arXiv:2409.06941v2 宣告类型: replace-cross 摘要：管道并行性中气泡的出现是一个内在的限制，可以占到大型语言模型（LLM）训练时间的40%以上，并且是导致LLM训练中GPU资源利用率低的主要原因之一。通过利用这些气泡进行GPU侧任务可以提高资源利用率并降低训练成本，但这也带来了一些挑战。首先，由于气泡是不连续的且形态各异，编程侧任务变得困难，并需要大量的工程努力。其次，侧任务可能会与管道训练竞争GPU资源，并导致显著的开销。为了解决这些挑战，我们提出了FreeRide，这是一个旨在利用管道并行性中的气泡进行侧任务的系统。FreeRide为程序员提供了接口以轻松实现侧任务，在管道训练过程中管理和处理气泡和侧任务，并通过控制侧任务对GPU资源的访问来减少开销。我们展示了FreeRide在训练LLM的同时可以完成模型训练、图分析和图像处理侧任务，在实现7.8%的平均成本节省的同时，开销不到1%。