LLM2D

摘要

大型语言模型（LLMs）的性能快速发展伴随着模型规模的不断扩大，导致模型训练和推理成本越来越高。之前的研究发现，LLMs 中的某些层存在冗余，移除这些层只会导致模型性能略微下降。本文采用探测技术来解释 LLMs 中的层冗余，并证明语言模型可以通过探测分类器进行有效地剪枝。我们提出了芯片调优，这是一种简单有效的结构化剪枝框架，专门用于分类问题。芯片调优将名为芯片的小型探测分类器附加到 LLMs 的不同层，并在冻结主干模型的情况下训练芯片。在选择用于分类的芯片后，可以移除附加层之后的所有层，而性能损失微乎其微。在各种 LLMs 和数据集上的实验结果表明，芯片调优在准确率和剪枝率方面都显著优于以前的最新基线，剪枝率高达 50%。我们还发现，芯片调优可以应用于多模态模型，并且可以与模型微调相结合，证明了其出色的兼容性。