摘要
Transformer 模型的性能通过增加参数数量和处理文本的长度得到了提升。因此,对整个模型进行微调变成了一个内存密集型过程。参数高效微调 (PEFT) 的高性能方法通常与注意力块一起使用,而忽略了 MLP 块,MLP 块包含大约一半的模型参数。我们提出了一种新的选择性 PEFT 方法,即 SparseGrad,它在 MLP 块上表现良好。我们将层梯度转移到一个空间,在这个空间中只有大约 1% 的层元素仍然显著。通过将梯度转换为稀疏结构,我们减少了更新参数的数量。我们将 SparseGrad 应用于对 BERT 和 RoBERTa 进行 NLU 任务的微调,以及对 LLaMa-2 进行问答任务的微调。在这些实验中,在相同的内存需求下,我们的方法优于 LoRA 和 MeProp,这些方法是流行的最新 PEFT 方法。