LLM2D

摘要

arXiv:2410.01866v2 宣布类型: 替换-交叉摘要：大规模激活，表现为隐藏状态中特定特征维度中的特征，会在大规模语言模型（LLMs）中引入显著的偏差，导致对相应标记的过度重视。在本文中，我们发现大规模激活并非来源于隐藏状态本身，而是来源于早期层中前馈网络模块的中间状态。在此前观察到大规模激活仅出现在特定特征维度的基础上，我们深入研究了导致大规模激活的权重。具体来说，我们将导致中间状态中前k大幅度维度的权重定义为前k 大权重。当这些大规模权重被设置为零时，会导致大规模语言模型的功能完全中断。然而，当除了大规模权重外的所有权重被设置为零时，性能下降相对较小，尽管设置为零的权重数量更多。这表明，在预训练过程中，学习主要集中在大规模权重上。基于这一观察，我们提出了一种简单的即插即用方法——MacDrop（大规模权重课程dropout），以便在参数高效微调过程中较少依赖大规模权重。该方法对预训练的大规模权重应用dropout，初始dropout概率较高，并随着微调的进行逐渐降低。通过包括零样本下游任务、长上下文任务和消融研究在内的各种实验，我们证明了MacDrop通常可以改进性能并增强鲁棒性。