LLM2D

摘要

低秩适应（LoRA）是一种广泛使用的参数高效微调方法，适用于大型语言模型。LoRA通过仅训练选定权重矩阵的低秩扰动来节省内存。在这项工作中，我们比较了LoRA和完全微调在编程和数学这两个目标领域的表现。我们考虑了指令微调（约10万个提示-响应对）和持续预训练（200亿非结构化标记）的数据机制。我们的结果表明，在标准低秩设置中，LoRA的表现明显不如完全微调。然而，LoRA更好地保持了基础模型在目标领域之外任务上的性能。我们表明，LoRA比常见的正则化技术（如权重衰减和丢弃）更能减轻遗忘现象；它还帮助保持更多样化的生成。最后，我们发现完全微调学习的扰动的秩比典型的LoRA配置高出10-100倍，这可能解释了某些报告的差距。我们最终提出了使用LoRA进行微调的最佳实践。