LLM2D

摘要

arXiv:2407.11534v2 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）的商业化，权重-激活量化已出现，用于压缩和加速LLMs，实现高吞吐量同时减少推理成本。然而，现有针对LLMs权重和激活量化的后训练量化（PTQ）技术仍然会导致显著的准确率下降，尤其是在大规模的多任务语言理解中。为解决这一问题，我们提出了低秩量化（LRQ）——一种针对LLMs的有效后训练权重量化方法，通过利用低秩权重缩放矩阵重构中间Transformer块的输出，替代传统的全秩权重缩放矩阵，后者包含与其关联的权重数量相当的可学习尺度。得益于低秩结构中的参数共享，LRQ只需要学习显著更少的参数，同时允许权重的独立缩放，从而增强了量化的LLMs的泛化能力。我们在以下三种量化方案中展示了LRQ相对于先前的LLM PTQ工作的优越性：(i) 8位权重和张量级激活量化，(ii) 4位权重和8位张量级激活量化，以及(iii) 低位数权重唯量化方案。我们的代码可在Software中获得。