LLM2D

摘要

arXiv:2406.10181v2 宣告类型: replace-cross 摘要：微调大量语言模型（LLMs）需要大量的内存，往往超过了单个GPU的容量。解决这一内存挑战的常见方法是将计算和数据从GPU卸载到CPU。然而，这种方法受到商用硬件带宽有限的限制，这限制了CPU和GPU之间的通信，并且CPU上的矩阵乘法速度较慢。在这篇论文中，我们提出了一个卸载框架LSP-Offload，通过学习稀疏投影器在商用硬件上实现接近原生速度的LLM微调。我们的数据驱动方法涉及学习高效的稀疏压缩器，以最小化通信并减少精度损失。此外，我们引入了一种新的逐层通信调度方法，以最大化通信和计算之间的并行性。因此，我们的框架可以在4GB笔记本GPU上微调一个1.3亿参数的模型，在24GB NVIDIA RTX 4090 GPU上微调一个6.7亿参数的模型。与最先进的卸载框架相比，当达到相同准确度时，我们的方法将端到端微调时间减少了33.1%-62.5%。我们开源了我们的框架，地址为 https://github.com/gulang2019/LSP-Offload。