摘要
低秩适应(LoRA)是一种广泛使用的参数高效微调方法,适用于大型语言模型。LoRA通过仅训练选定权重矩阵的低秩扰动来节省内存。在这项工作中,我们比较了LoRA和完全微调在编程和数学这两个目标领域的表现。我们考虑了指令微调(约10万个提示-响应对)和持续预训练(200亿非结构化标记)的数据机制。我们的结果表明,在标准低秩设置中,LoRA的表现明显不如完全微调。然而,LoRA更好地保持了基础模型在目标领域之外任务上的性能。我们表明,LoRA比常见的正则化技术(如权重衰减和丢弃)更能减轻遗忘现象;它还帮助保持更多样化的生成。最后,我们发现完全微调学习的扰动的秩比典型的LoRA配置高出10-100倍,这可能解释了某些报告的差距。我们最终提出了使用LoRA进行微调的最佳实践。