摘要
arXiv:2502.00987v1 类别: cross
摘要: 低秩适应(LoRA)及其变体在减少大型变压器网络的可训练参数数量和内存需求的同时,保持了微调性能方面表现出了令人印象深刻的成果。然而,权重更新的低秩性质固有限制了微调模型的表现能力,可能导致在复杂任务上性能下降。这就提出了一个关键问题:当观察到LoRA和标准微调之间的性能差距时,这种差距是由于可训练参数数量减少还是由于秩亏欠?本文通过引入RandLoRA,一种参数效率方法,利用学习到的低秩非训练随机矩阵的线性组合来执行全秩更新,来回答这个问题。我们的方法通过限制优化到固定随机矩阵上的对角缩放矩阵的应用,从而限制可训练参数的数量。这使我们能够在保持训练期间的参数和内存效率的同时有效克服低秩限制。通过在视觉、语言和视觉-语言基准上的广泛实验,我们系统性地评估了LoRA和现有随机基方法的局限性。我们的发现表明,在视觉和语言任务上单独使用全秩更新是有益的,而在视觉-语言任务上,RandLoRA显著减少了标准微调和LoRA之间的性能差距,并且有时甚至完全消除了这种差距,证明了其有效性。