LLM2D
Inheritune:训练更小但更专注的语言模型
Inheritune: Training Smaller Yet More Attentive Language Models
作者: Sunny Sanyal, Ravid Shwartz-Ziv, Alexandros G. Dimakis, Sujay Sanghavi
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2404.08634v2

摘要

大型语言模型(LLM)在各种自然语言处理任务中取得了显著的性能,这主要归功于 Transformer 架构及其自注意力机制。然而,我们观察到,在标准的解码器式 LLM 中,注意力矩阵在更深层的层中退化为单列。处于这种状态的层无法学习任何有意义的东西,并且大多是冗余的;我们将这些层称为“懒惰层”。本文的目标是通过消除这种结构性低效率来训练更小的模型,而不会影响性能。 受此观察的启发,我们提出了 Inheritune,这是一种简单而有效的训练方法,用于开发更小、性能更高的语言模型。使用 Inheritune 训练的较小模型继承了来自较大预训练模型的早期 Transformer 层,然后重新训练并逐步扩展,直到它们匹配或超过较大模型的性能。我们证明了 Inheritune 能够在 OpenWebText-9B 和 FineWeb_edu 等数据集上训练各种大小的 GPT-2 模型。使用 Inheritune 训练的模型,尽管层数明显更少,但其性能与更大的模型相当,甚至超过了更大的模型。例如,我们的 16 层 GPT-2 中型变体实现了与标准 24 层 GPT-2 中型模型相当的性能。代码可在 https://github.com/sanyalsunny111/LLM-Inheritune 获取。