摘要
大型语言模型(LLMs)的性能快速发展伴随着模型规模的不断扩大,导致模型训练和推理成本越来越高。之前的研究发现,LLMs 中的某些层存在冗余,移除这些层只会导致模型性能略微下降。本文采用探测技术来解释 LLMs 中的层冗余,并证明语言模型可以通过探测分类器进行有效地剪枝。我们提出了芯片调优,这是一种简单有效的结构化剪枝框架,专门用于分类问题。芯片调优将名为芯片的小型探测分类器附加到 LLMs 的不同层,并在冻结主干模型的情况下训练芯片。在选择用于分类的芯片后,可以移除附加层之后的所有层,而性能损失微乎其微。在各种 LLMs 和数据集上的实验结果表明,芯片调优在准确率和剪枝率方面都显著优于以前的最新基线,剪枝率高达 50%。我们还发现,芯片调优可以应用于多模态模型,并且可以与模型微调相结合,证明了其出色的兼容性。