LLM2D

摘要

大规模激活在大型语言模型（LLMs）的隐藏状态的特定特征维度上表现出来，会引入显著的偏差，导致对相应词元的过度关注。本文发现，大规模激活并非源于隐藏状态，而是源于早期层中前馈网络模块的中间状态。在先前观察到的大规模激活仅发生在特定特征维度上的基础上，我们深入研究了导致大规模激活的权重。具体而言，我们将前 $k$ 个最大权重定义为对中间状态中前 $k$ 个最大幅值的维度有贡献的权重。当这些最大权重被设置为零时，LLMs 的功能会完全被破坏。然而，当除最大权重之外的所有权重都被设置为零时，即使设置了更多权重为零，性能也会下降相对较小。这意味着在预训练过程中，学习主要集中在最大权重上。基于这一观察结果，我们提出了一种简单即插即用的方法，称为 MacDrop（大规模权重课程 dropout），在参数高效微调过程中减少对最大权重的依赖。该方法对预训练的大规模权重应用 dropout，从高 dropout 概率开始，并随着微调的进行逐渐降低。通过实验，我们证明了 MacDrop 通常可以提高零样本下游任务和生成任务的性能。