LLM2D
LoRA-Pro: 低秩适配器优化得当吗?
LoRA-Pro: Are Low-Rank Adapters Properly Optimized?
作者: Zhengbo Wang, Jian Liang, Ran He, Zilei Wang, Tieniu Tan
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2407.18242v3

摘要

arXiv:2407.18242v3 宣布类型: replace-cross 摘要: 低秩适应(也称为LoRA)已成为参数高效微调基础模型的一种 prominent 方法。尽管LoRA具有计算效率,但在性能上仍比全量微调略逊一筹。在本文中,我们首先揭示了LoRA和全量微调的优化过程之间的基本联系:使用LoRA进行优化从数学上等价于使用低秩梯度进行参数更新的全量微调。这个低秩梯度可以用LoRA中的两个低秩矩阵的梯度来表示。利用这一洞见,我们引入了LoRA-Pro,一种通过有策略地调整这两个低秩矩阵的梯度来增强LoRA性能的方法。这种调整使得低秩梯度更能准确地模拟全量微调梯度,从而缩小了LoRA与全量微调之间的性能差距。此外,我们从理论上推导了调整低秩矩阵梯度的最优解,并在LoRA-Pro训练过程中应用它们。我们在自然语言理解、对话生成、数学推理、代码生成和图像分类任务中进行了广泛的实验,证明LoRA-Pro显著提高了LoRA的性能,并有效地缩小了与全量微调之间的差距。代码已公开可在https://github.com/mrflogs/LoRA-Pro上获取。