LLM2D

摘要

大型语言模型（LLMs）的快速发展伴随着模型规模的不断扩大，导致模型训练和推理成本不断增加。先前研究发现，LLMs 中的某些层存在冗余，移除这些层只会导致模型性能的轻微损失。本文采用探测技术解释 LLMs 中的层冗余，并证明可以使用探测分类器有效地对语言模型进行剪枝。我们提出了芯片调优，这是一种简单有效的结构化剪枝框架，专门针对分类问题。芯片调优将名为芯片的小型探测分类器附加到 LLMs 的不同层，并在冻结主干模型的情况下训练芯片。在选择一个用于分类的芯片后，所有后续于附加层的层都可以被移除，而性能损失微乎其微。在各种 LLMs 和数据集上的实验结果表明，芯片调优在准确性和剪枝率方面显著优于先前最先进的基线，实现了高达 50% 的剪枝率。我们还发现，芯片调优可以应用于多模态模型，并且可以与模型微调相结合，证明了其出色的兼容性。