摘要
arXiv:2406.10181v2 宣告类型: replace-cross
摘要:微调大量语言模型(LLMs)需要大量的内存,往往超过了单个GPU的容量。解决这一内存挑战的常见方法是将计算和数据从GPU卸载到CPU。然而,这种方法受到商用硬件带宽有限的限制,这限制了CPU和GPU之间的通信,并且CPU上的矩阵乘法速度较慢。
在这篇论文中,我们提出了一个卸载框架LSP-Offload,通过学习稀疏投影器在商用硬件上实现接近原生速度的LLM微调。我们的数据驱动方法涉及学习高效的稀疏压缩器,以最小化通信并减少精度损失。此外,我们引入了一种新的逐层通信调度方法,以最大化通信和计算之间的并行性。因此,我们的框架可以在4GB笔记本GPU上微调一个1.3亿参数的模型,在24GB NVIDIA RTX 4090 GPU上微调一个6.7亿参数的模型。与最先进的卸载框架相比,当达到相同准确度时,我们的方法将端到端微调时间减少了33.1%-62.5%。我们开源了我们的框架,地址为 https://github.com/gulang2019/LSP-Offload。