LLM2D
FuseGPT:可学习的生成式预训练Transformer层融合
FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers
作者: Zehua Pei, Hui-Ling Zhen, Xianzhi Yu, Sinno Jialin Pan, Mingxuan Yuan, Bei Yu
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.14507v1

摘要

生成式预训练Transformer(GPT)通过大规模扩展模型参数在各个领域都展现出了卓越的性能。最近的一些研究观察到Transformer块之间存在冗余,并通过对不重要块进行结构化剪枝来开发压缩方法。然而,这种直接的消除方法总是会造成不可逆的性能下降。在本文中,我们提出了一种名为FuseGPT的新方法,该方法可以回收被剪枝的Transformer块以进一步恢复模型性能。首先,我们引入了一种新的重要性检测指标——宏观影响力(MI),通过计算移除每个Transformer块后其信息损失来检测每个Transformer块的长期影响。然后,我们提出了组层融合方法,该方法采用不重要块中各层的参数,并将它们注入到相邻块内部的对应层中。融合并非一次性完成,而是通过轻量级的组层微调进行迭代参数更新。具体来说,这些注入的参数是冻结的,但与可学习的秩分解矩阵加权,以减少微调过程中的开销。我们的方法不仅适用于大型语言模型,也适用于大型多模态模型。实验表明,通过使用适量的数据,FuseGPT在困惑度和零样本任务性能方面均优于以往的工作。