LLM2D
DReSS: 数据驱动正则化结构化流线化方法用于大规模语言模型
DReSS: Data-driven Regularized Structured Streamlining for Large Language Models
作者: Mingkuan Feng, Jinyang Wu, Shuai Zhang, Pengpeng Shao, Ruihan Jin, Zhengqi Wen, Jianhua Tao, Feihu Che
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2501.17905v2

摘要

arXiv:2501.17905v2 宣告类型: replace-cross 摘要:大型语言模型(LLMs)在各个领域取得了显著进步,但其不断扩大的规模导致了高计算和内存成本。最近的研究表明,LLMs具有稀疏性,提供了通过剪枝技术减小模型大小的潜在可能性。然而,现有的剪枝方法通常遵循先剪枝再微调的范式。由于被剪枝的组件仍然包含有价值的信息,直接移除这些组件往往会导致不可逆的性能下降,在微调过程中恢复性能会带来巨大的计算负担。在本文中,我们提出了一种新的范式,即先应用正则化,然后进行剪枝,最后进行微调。基于这一范式,我们介绍了DReSS,一种简单而有效的数据驱动的正则化结构化流线化方法,适用于LLMs。通过利用少量数据对将要剪枝的组件进行正则化,DReSS预先明确地将重要信息转移到模型的剩余部分。与直接剪枝相比,这可以减少由于参数移除引起的信息损失,从而增强其语言建模能力。实验结果表明,在极端剪枝率下,DReSS显著优于现有剪枝方法,显著减少延迟并增加吞吐量。