摘要
arXiv:2410.01866v2 宣布类型: 替换-交叉
摘要:大规模激活,表现为隐藏状态中特定特征维度中的特征,会在大规模语言模型(LLMs)中引入显著的偏差,导致对相应标记的过度重视。在本文中,我们发现大规模激活并非来源于隐藏状态本身,而是来源于早期层中前馈网络模块的中间状态。在此前观察到大规模激活仅出现在特定特征维度的基础上,我们深入研究了导致大规模激活的权重。具体来说,我们将导致中间状态中前k大幅度维度的权重定义为前k 大权重。当这些大规模权重被设置为零时,会导致大规模语言模型的功能完全中断。然而,当除了大规模权重外的所有权重被设置为零时,性能下降相对较小,尽管设置为零的权重数量更多。这表明,在预训练过程中,学习主要集中在大规模权重上。基于这一观察,我们提出了一种简单的即插即用方法——MacDrop(大规模权重课程dropout),以便在参数高效微调过程中较少依赖大规模权重。该方法对预训练的大规模权重应用dropout,初始dropout概率较高,并随着微调的进行逐渐降低。通过包括零样本下游任务、长上下文任务和消融研究在内的各种实验,我们证明了MacDrop通常可以改进性能并增强鲁棒性。