LLM2D

摘要

arXiv:2410.13056v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在广泛的语言任务中表现出色，但由于其庞大的参数量带来的大量内存需求，其在边缘设备上的部署仍然颇具挑战。仅权重量化提供了一种减少LLM内存占用的有前途的解决方案。然而，现有的方法主要集中在整数位量化上，限制了其对分数位量化任务的适应性，并限制了设备上可用存储空间的充分利用。在本文中，我们介绍了通道级混合精度量化（CMPQ），这是一种基于激活分布按通道分配量化精度的新颖混合精度量化方法。通过为不同的权重通道分配不同的精度等级，CMPQ 可以适应任何位宽约束。CMPQ 采用非均匀量化策略，并结合了两种异常值提取技术，协作保存关键信息，从而最小化量化损失。在不同大小的LLM上的实验表明，CMPQ 不仅在整数位量化任务中提高了性能，而且在内存使用量略有增加的情况下实现了显著的性能提升。因此，CMPQ 代表了一种对LLM量化具有适应性和有效性的方法，为各种设备能力提供了巨大的优势。