LLM2D

摘要

低秩自适应（LoRA）作为一种代表性的参数高效微调（PEFT）方法，通过仅更新大型语言模型（LLM）中一小部分权重，显著提高了训练效率。最近，仅权重量化技术也被应用于 LoRA 方法，以减少微调的内存占用。然而，将权重-激活量化应用于 LoRA 管道尚未得到充分探索，我们观察到性能下降主要归因于激活异常值的存在。在这项工作中，我们提出了 RoLoRA，这是第一个用于有效权重-激活量化的基于 LoRA 的方案。RoLoRA 利用旋转来消除异常值，并提出了旋转感知微调来保留旋转 LLM 中的无异常值特征。实验结果表明，RoLoRA 在权重-激活设置中始终提高了低位 LoRA 收敛和训练后量化鲁棒性。我们在 LLaMA2-7B/13B、LLaMA3-8B 模型上评估了 RoLoRA，与 LoRA 基线相比，在常识推理任务上实现了高达 29.5% 的 4 位权重-激活量化 LLaMA2-13B 的绝对精度增益。我们进一步证明了它对大型多模态模型（LLaVA-1.5-7B）的有效性。代码可在 https://github.com/HuangOwen/RoLoRA 获取。