摘要
低秩自适应(LoRA)作为一种代表性的参数高效微调(PEFT)方法,通过仅更新大型语言模型(LLM)中一小部分权重,显著提高了训练效率。最近,仅权重量化技术也被应用于 LoRA 方法,以减少微调的内存占用。然而,将权重-激活量化应用于 LoRA 管道尚未得到充分探索,我们观察到性能下降主要归因于激活异常值的存在。在这项工作中,我们提出了 RoLoRA,这是第一个用于有效权重-激活量化的基于 LoRA 的方案。RoLoRA 利用旋转来消除异常值,并提出了旋转感知微调来保留旋转 LLM 中的无异常值特征。实验结果表明,RoLoRA 在权重-激活设置中始终提高了低位 LoRA 收敛和训练后量化鲁棒性。我们在 LLaMA2-7B/13B、LLaMA3-8B 模型上评估了 RoLoRA,与 LoRA 基线相比,在常识推理任务上实现了高达 29.5% 的 4 位权重-激活量化 LLaMA2-13B 的绝对精度增益。我们进一步证明了它对大型多模态模型(LLaVA-1.5-7B)的有效性。代码可在 https://github.com/HuangOwen/RoLoRA 获取。