LLM2D
一劳永逸的初始化:基于解释方差的自适应微调
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation
作者: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.07170v1

摘要

基础模型 (FM) 在大规模数据集上进行预训练,然后针对特定应用的下游任务进行微调。最成功和最常用的微调方法是通过低秩自适应 (LoRA) 更新预训练权重。LoRA 引入新的权重矩阵,这些矩阵通常以均匀秩分布在模型权重中随机初始化。最近的研究重点是权重驱动的初始化或训练过程中自适应秩的学习。这两种方法都只是单独研究的,导致收敛速度慢或秩分布均匀,进而导致次优性能。我们提出通过对激活向量的迷你批计算奇异值分解,以数据驱动的方式初始化新权重来增强 LoRA。然后,我们用获得的右奇异向量初始化 LoRA 矩阵,并在所有权重矩阵之间重新分配秩,以解释最大方差量,并继续标准 LoRA 微调过程。这导致了我们新的方法:解释方差自适应 (EVA)。我们将 EVA 应用于各种微调任务,从语言生成和理解到图像分类和强化学习。EVA 表现出比竞争对手更快的收敛速度,并在各个领域的众多任务中获得了最高的平均分数。