摘要
arXiv:2407.11534v2 宣告类型: replace-cross
摘要:随着大型语言模型(LLMs)的商业化,权重-激活量化已出现,用于压缩和加速LLMs,实现高吞吐量同时减少推理成本。然而,现有针对LLMs权重和激活量化的后训练量化(PTQ)技术仍然会导致显著的准确率下降,尤其是在大规模的多任务语言理解中。为解决这一问题,我们提出了低秩量化(LRQ)——一种针对LLMs的有效后训练权重量化方法,通过利用低秩权重缩放矩阵重构中间Transformer块的输出,替代传统的全秩权重缩放矩阵,后者包含与其关联的权重数量相当的可学习尺度。得益于低秩结构中的参数共享,LRQ只需要学习显著更少的参数,同时允许权重的独立缩放,从而增强了量化的LLMs的泛化能力。我们在以下三种量化方案中展示了LRQ相对于先前的LLM PTQ工作的优越性:(i) 8位权重和张量级激活量化,(ii) 4位权重和8位张量级激活量化,以及(iii) 低位数权重唯量化方案。我们的代码可在Software中获得。