LLM2D
READ:大型Transformer的循环适应
READ: Recurrent Adaptation of Large Transformers
作者: John Nguyen, Sid Wang, Ke Li, Carole-Jean Wu
发布日期: 10/7/2024
arXiv ID: oai:arXiv.org:2305.15348v2

摘要

大规模 Transformer 的微调已在自然语言处理和计算机视觉任务中催生了许多人工智能应用。然而,随着模型规模和任务数量的增加,微调所有预训练模型参数变得不切实际。参数高效迁移学习 (PETL) 方法旨在解决这些挑战。尽管在减少可训练参数数量方面有效,但 PETL 方法仍然需要大量的能源和计算资源进行微调。在本文中,我们介绍了 **RE**current **AD**aptation (READ)——一种轻量级且内存高效的微调方法——来克服当前 PETL 方法的局限性。具体来说,READ 在主干模型旁边插入了一个小型 RNN 网络,这样模型就不必反向传播到大型主干网络。通过对 GLUE 基准的全面实证评估,我们证明 READ 可以将训练内存消耗降低 56%,将 GPU 能耗降低 84%,同时与全微调相比,可以重新训练出高质量的模型。此外,READ 的模型大小不会随着主干模型大小的增加而增长,使其成为微调大型 Transformer 的高度可扩展解决方案。