LLM2D

摘要

arXiv:2410.13056v3 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）在广泛的语言任务中展现了令人瞩目的成功，但由于其庞大多参数量带来的巨大内存需求，它们在边缘设备上的部署仍然具有挑战性。仅权重量化提供了一种减少LLMs内存占用的有前景的解决方案。然而，现有的方法主要集中在整数位量化上，限制了它们对分数位量化任务的适应性，并阻止了设备上可用存储空间的充分利用。在本文中，我们提出了一种新的混合精度量化方法——通道级混合精度量化（CMPQ），该方法根据激活分布以通道级模式分配量化精度。通过为不同的权重通道分配不同的精度级别，CMPQ可以适应任何位宽约束。CMPQ采用非均匀量化策略，并结合了两种异常值提取技术，共同保留关键信息，从而最小化量化损失。在不同大小的LLMs上的实验表明，CMPQ不仅在整数位量化任务中提升了性能，还在内存使用略有增加的情况下实现了显著的性能提升。因此，CMPQ代表了一种适应性强且有效的LLM量化方法，在各种设备能力下提供了巨大的优势。