LLM2D
SparseGrad:一种用于多层感知机层高效微调的选择性方法
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers
作者: Viktoriia Chekalina, Anna Rudenko, Gleb Mezentsev, Alexander Mikhalev, Alexander Panchenko, Ivan Oseledets
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07383v1

摘要

Transformer 模型的性能通过增加参数数量和处理文本的长度得到了提升。因此,对整个模型进行微调变成了一个内存密集型过程。参数高效微调 (PEFT) 的高性能方法通常与注意力块一起使用,而忽略了 MLP 块,MLP 块包含大约一半的模型参数。我们提出了一种新的选择性 PEFT 方法,即 SparseGrad,它在 MLP 块上表现良好。我们将层梯度转移到一个空间,在这个空间中只有大约 1% 的层元素仍然显著。通过将梯度转换为稀疏结构,我们减少了更新参数的数量。我们将 SparseGrad 应用于对 BERT 和 RoBERTa 进行 NLU 任务的微调,以及对 LLaMa-2 进行问答任务的微调。在这些实验中,在相同的内存需求下,我们的方法优于 LoRA 和 MeProp,这些方法是流行的最新 PEFT 方法。