LLM2D

摘要

arXiv:2501.12428v2 宣告类型: replace-cross 摘要: 深度神经网络（DNNs）的量化过程是将DNN的参数值从原始数据类型映射到较低精度的数据类型，以减少模型大小并加快推理速度。量化通常会将不同原始值映射到一个量化值，因为原始值的范围大于量化值的范围。这会导致量化DNN的准确率下降。离群值是量化分辨率下降的主要原因之一，因为它们扩大了原始值的范围。为了解决这个问题，通常使用百分位数方法来裁剪离群值。然而，裁剪离群值另一个问题是会移除DNN中的重要和强信号。本文提出了SplitQuant，以同时保留离群值并提高量化分辨率。SplitQuant通过将每个可量化的层分割成三个数学上等价的层，并应用不同的缩放因子来缩小原始值的范围，从而减轻离群值的影响。尤其是，权重和偏置被聚类为下、中、上三个集群以优化分割。通过使用SplitQuant预处理DNNs，量化算法可以取得更好的结果。将SplitQuant应用到两个BERT-Tiny模型上，分别提高了INT2量化的准确率3.3个百分点和2.1个百分点，达到了与原FP32模型相当的准确率。