LLM2D

摘要

arXiv:2407.18242v3 宣布类型: replace-cross 摘要: 低秩适应（也称为LoRA）已成为参数高效微调基础模型的一种 prominent 方法。尽管LoRA具有计算效率，但在性能上仍比全量微调略逊一筹。在本文中，我们首先揭示了LoRA和全量微调的优化过程之间的基本联系：使用LoRA进行优化从数学上等价于使用低秩梯度进行参数更新的全量微调。这个低秩梯度可以用LoRA中的两个低秩矩阵的梯度来表示。利用这一洞见，我们引入了LoRA-Pro，一种通过有策略地调整这两个低秩矩阵的梯度来增强LoRA性能的方法。这种调整使得低秩梯度更能准确地模拟全量微调梯度，从而缩小了LoRA与全量微调之间的性能差距。此外，我们从理论上推导了调整低秩矩阵梯度的最优解，并在LoRA-Pro训练过程中应用它们。我们在自然语言理解、对话生成、数学推理、代码生成和图像分类任务中进行了广泛的实验，证明LoRA-Pro显著提高了LoRA的性能，并有效地缩小了与全量微调之间的差距。代码已公开可在https://github.com/mrflogs/LoRA-Pro上获取。