LLM2D
RILQ:Rank-Insensitive LoRA-based量化误差补偿方法以提升2位大型语言模型的准确性
RILQ: Rank-Insensitive LoRA-based Quantization Error Compensation for Boosting 2-bit Large Language Model Accuracy
作者: Geonho Lee, Janghwan Lee, Sukjin Hong, Minsoo Kim, Euijai Ahn, Du-Seong Chang, Jungwook Choi
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2412.01129v3

摘要

arXiv:2412.01129v3 通告类型: replace-cross 摘要:低秩适应(LoRA)已成为参数高效大规模语言模型微调的主流方法,基于LoRA的量化误差补偿(LQEC)作为恢复压缩LLM准确性的一种强大工具逐渐崭露头角。然而,在低于4比特的场景中,LQEC的表现不佳,且在此之前还没有对这一局限性的深入探究。我们提出了RILQ(Rank-Insensitive LoRA-based Quantization Error Compensation)以理解根本的局限性,并提升2比特LLM的准确性。基于秩分析揭示模型层面激活偏差损失的秩不敏感特性,RILQ利用这种损失在网络上层协作调整适配器,从而实现基于低秩适配器的稳健误差补偿。在LLaMA-2和LLaMA-3上的评估表明,RILQ在各种顶级量化器上一致地提升了2比特量化推理的准确性,并且在特定任务的微调中提高了准确性。RILQ保持与现有LoRA方法相当的计算效率,能够实现合并适配器的重量量化LLM推理,并显著提高准确性,使其成为提升2比特LLM性能的有前途的方法。我们的代码可在https://github.com/aiha-lab/RILQ获取。