LLM2D

摘要

大型语言模型（LLM）在各种自然语言处理任务中取得了显著的性能，这主要归功于 Transformer 架构及其自注意力机制。然而，我们观察到，在标准的解码器式 LLM 中，注意力矩阵在更深层的层中退化为单列。处于这种状态的层无法学习任何有意义的东西，并且大多是冗余的；我们将这些层称为“懒惰层”。本文的目标是通过消除这种结构性低效率来训练更小的模型，而不会影响性能。受此观察的启发，我们提出了 Inheritune，这是一种简单而有效的训练方法，用于开发更小、性能更高的语言模型。使用 Inheritune 训练的较小模型继承了来自较大预训练模型的早期 Transformer 层，然后重新训练并逐步扩展，直到它们匹配或超过较大模型的性能。我们证明了 Inheritune 能够在 OpenWebText-9B 和 FineWeb_edu 等数据集上训练各种大小的 GPT-2 模型。使用 Inheritune 训练的模型，尽管层数明显更少，但其性能与更大的模型相当，甚至超过了更大的模型。例如，我们的 16 层 GPT-2 中型变体实现了与标准 24 层 GPT-2 中型模型相当的性能。代码可在 https://github.com/sanyalsunny111/LLM-Inheritune 获取。