摘要
arXiv:2505.05530v1 声明类型: cross
摘要:随着前所未有的迅猛发展,深度神经网络(DNNs)已经深刻地影响到了几乎所有的领域。然而,它们大量的计算成本和模型大小通常在实际部署中是无法接受的。模型量化,一种有效的权重精简技术,已经成为整个部署管道中不可或缺的步骤。量化加速的本质是从连续的浮点数转换为离散的整数,这显著加快了内存I/O和计算,即加法和乘法。然而,由于精度的损失,转换也会带来性能下降。因此,如何进行转换以及如何弥补信息损失,已经成为越来越受欢迎和关键的研究方向。本文回顾了过去五年DNNs低比特量化的发展进程。我们讨论并比较了最先进的量化方法,并根据其核心技术将其分类为8个主要类别和24个子类别。此外,我们阐述了模型量化领域潜在的研究机会。在https://github.com/Kai-Liu001/Awesome-Model-Quantization中提供了一个模型量化分类清单。