LLM2D

摘要

arXiv:2412.01129v3 通告类型: replace-cross 摘要：低秩适应（LoRA）已成为参数高效大规模语言模型微调的主流方法，基于LoRA的量化误差补偿（LQEC）作为恢复压缩LLM准确性的一种强大工具逐渐崭露头角。然而，在低于4比特的场景中，LQEC的表现不佳，且在此之前还没有对这一局限性的深入探究。我们提出了RILQ（Rank-Insensitive LoRA-based Quantization Error Compensation）以理解根本的局限性，并提升2比特LLM的准确性。基于秩分析揭示模型层面激活偏差损失的秩不敏感特性，RILQ利用这种损失在网络上层协作调整适配器，从而实现基于低秩适配器的稳健误差补偿。在LLaMA-2和LLaMA-3上的评估表明，RILQ在各种顶级量化器上一致地提升了2比特量化推理的准确性，并且在特定任务的微调中提高了准确性。RILQ保持与现有LoRA方法相当的计算效率，能够实现合并适配器的重量量化LLM推理，并显著提高准确性，使其成为提升2比特LLM性能的有前途的方法。我们的代码可在https://github.com/aiha-lab/RILQ获取。