LLM2D

摘要

生成式预训练Transformer（GPT）通过大规模扩展模型参数在各个领域都展现出了卓越的性能。最近的一些研究观察到Transformer块之间存在冗余，并通过对不重要块进行结构化剪枝来开发压缩方法。然而，这种直接的消除方法总是会造成不可逆的性能下降。在本文中，我们提出了一种名为FuseGPT的新方法，该方法可以回收被剪枝的Transformer块以进一步恢复模型性能。首先，我们引入了一种新的重要性检测指标——宏观影响力（MI），通过计算移除每个Transformer块后其信息损失来检测每个Transformer块的长期影响。然后，我们提出了组层融合方法，该方法采用不重要块中各层的参数，并将它们注入到相邻块内部的对应层中。融合并非一次性完成，而是通过轻量级的组层微调进行迭代参数更新。具体来说，这些注入的参数是冻结的，但与可学习的秩分解矩阵加权，以减少微调过程中的开销。我们的方法不仅适用于大型语言模型，也适用于大型多模态模型。实验表明，通过使用适量的数据，FuseGPT在困惑度和零样本任务性能方面均优于以往的工作。