摘要
arXiv:2412.01129v3 通告类型: replace-cross
摘要:低秩适应(LoRA)已成为参数高效大规模语言模型微调的主流方法,基于LoRA的量化误差补偿(LQEC)作为恢复压缩LLM准确性的一种强大工具逐渐崭露头角。然而,在低于4比特的场景中,LQEC的表现不佳,且在此之前还没有对这一局限性的深入探究。我们提出了RILQ(Rank-Insensitive LoRA-based Quantization Error Compensation)以理解根本的局限性,并提升2比特LLM的准确性。基于秩分析揭示模型层面激活偏差损失的秩不敏感特性,RILQ利用这种损失在网络上层协作调整适配器,从而实现基于低秩适配器的稳健误差补偿。在LLaMA-2和LLaMA-3上的评估表明,RILQ在各种顶级量化器上一致地提升了2比特量化推理的准确性,并且在特定任务的微调中提高了准确性。RILQ保持与现有LoRA方法相当的计算效率,能够实现合并适配器的重量量化LLM推理,并显著提高准确性,使其成为提升2比特LLM性能的有前途的方法。我们的代码可在https://github.com/aiha-lab/RILQ获取。