LLM2D
纸牌屋:大型语言模型中的巨量权重
House of Cards: Massive Weights in LLMs
作者: Jaehoon Oh, Seungjun Shin, Dokwan Oh
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.01866v1

摘要

大规模激活在大型语言模型(LLMs)的隐藏状态的特定特征维度上表现出来,会引入显著的偏差,导致对相应词元的过度关注。本文发现,大规模激活并非源于隐藏状态,而是源于早期层中前馈网络模块的中间状态。在先前观察到的大规模激活仅发生在特定特征维度上的基础上,我们深入研究了导致大规模激活的权重。具体而言,我们将前 $k$ 个最大权重定义为对中间状态中前 $k$ 个最大幅值的维度有贡献的权重。当这些最大权重被设置为零时,LLMs 的功能会完全被破坏。然而,当除最大权重之外的所有权重都被设置为零时,即使设置了更多权重为零,性能也会下降相对较小。这意味着在预训练过程中,学习主要集中在最大权重上。基于这一观察结果,我们提出了一种简单即插即用的方法,称为 MacDrop(大规模权重课程 dropout),在参数高效微调过程中减少对最大权重的依赖。该方法对预训练的大规模权重应用 dropout,从高 dropout 概率开始,并随着微调的进行逐渐降低。通过实验,我们证明了 MacDrop 通常可以提高零样本下游任务和生成任务的性能。