LLM2D

摘要

基础模型 (FM) 在大规模数据集上进行预训练，然后针对特定应用的下游任务进行微调。最成功和最常用的微调方法是通过低秩自适应 (LoRA) 更新预训练权重。LoRA 引入新的权重矩阵，这些矩阵通常以均匀秩分布在模型权重中随机初始化。最近的研究重点是权重驱动的初始化或训练过程中自适应秩的学习。这两种方法都只是单独研究的，导致收敛速度慢或秩分布均匀，进而导致次优性能。我们提出通过对激活向量的迷你批计算奇异值分解，以数据驱动的方式初始化新权重来增强 LoRA。然后，我们用获得的右奇异向量初始化 LoRA 矩阵，并在所有权重矩阵之间重新分配秩，以解释最大方差量，并继续标准 LoRA 微调过程。这导致了我们新的方法：解释方差自适应 (EVA)。我们将 EVA 应用于各种微调任务，从语言生成和理解到图像分类和强化学习。EVA 表现出比竞争对手更快的收敛速度，并在各个领域的众多任务中获得了最高的平均分数。