摘要
arXiv:2502.13533v1 交叉公告类型
摘要:大规模语言模型(LLMs)在自然语言处理任务中取得了显著进展,具备出色的任务泛化能力。低秩调整(LoRA)提供了一种成本效益高的微调解决方案,冻结原始模型参数,仅训练轻量级的低秩适配矩阵。然而,LoRA的内存占用主要由原始模型参数主导。为了解决这一问题,我们提出了一种名为LoRAM的高效LoRA训练方案,基于以下直觉:许多在过度参数化的LLM中有很多神经元在训练中几乎没有用处,但在推理中却是必不可少的。LoRAM提供了一个独特的视角:在修剪后的(小)模型上进行训练以获得修剪后的低秩矩阵,然后利用原始(大)模型进行推理。此外,模型发布者预先进行的低成本连续预训练能够使修剪后的模型与原始模型之间的知识差距保持一致。我们广泛的实验表明,LoRAM在各种修剪策略和下游任务中都表现出有效性。对于一个拥有700亿参数的模型,LoRAM使得在只有20G HBM的GPU上进行训练成为可能,替代了用于LoRA训练的A100-80G GPU和用于全程微调的15个GPU。特别是,通过结构化修剪结合4位量化实现的QLoRAM,对于LLaMA-3.1-70B(LLaMA-2-70B)减少了低秩矩阵训练中占据内存使用的参数存储成本15.81倍(16.95倍),同时在性能上显著优于原始的LLaMA-3.1-70B(LLaMA-2-70B)和LoRA训练的LLaMA-3.1-8B(LLaMA-2-13B)。