LLM2D

摘要

Transformer 模型的性能通过增加参数数量和处理文本的长度得到了提升。因此，对整个模型进行微调变成了一个内存密集型过程。参数高效微调 (PEFT) 的高性能方法通常与注意力块一起使用，而忽略了 MLP 块，MLP 块包含大约一半的模型参数。我们提出了一种新的选择性 PEFT 方法，即 SparseGrad，它在 MLP 块上表现良好。我们将层梯度转移到一个空间，在这个空间中只有大约 1% 的层元素仍然显著。通过将梯度转换为稀疏结构，我们减少了更新参数的数量。我们将 SparseGrad 应用于对 BERT 和 RoBERTa 进行 NLU 任务的微调，以及对 LLaMa-2 进行问答任务的微调。在这些实验中，在相同的内存需求下，我们的方法优于 LoRA 和 MeProp，这些方法是流行的最新 PEFT 方法。