LLM2D

摘要

arXiv:2501.17905v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在各个领域取得了显著进步，但其不断扩大的规模导致了高计算和内存成本。最近的研究表明，LLMs具有稀疏性，提供了通过剪枝技术减小模型大小的潜在可能性。然而，现有的剪枝方法通常遵循先剪枝再微调的范式。由于被剪枝的组件仍然包含有价值的信息，直接移除这些组件往往会导致不可逆的性能下降，在微调过程中恢复性能会带来巨大的计算负担。在本文中，我们提出了一种新的范式，即先应用正则化，然后进行剪枝，最后进行微调。基于这一范式，我们介绍了DReSS，一种简单而有效的数据驱动的正则化结构化流线化方法，适用于LLMs。通过利用少量数据对将要剪枝的组件进行正则化，DReSS预先明确地将重要信息转移到模型的剩余部分。与直接剪枝相比，这可以减少由于参数移除引起的信息损失，从而增强其语言建模能力。实验结果表明，在极端剪枝率下，DReSS显著优于现有剪枝方法，显著减少延迟并增加吞吐量。