LLM2D

摘要

arXiv:2502.01199v1 类型: cross 摘要: 模型量化解广泛应用于深度神经网络(DNNs)的压缩和加速。然而，传统的量化感知训练(QAT)专注于使用均匀的位宽训练DNNs。不同的硬件和传输需求导致不同的位宽设置，这引发了显著的训练和存储成本。因此，提出了针对这一问题的一次性联合训练多个精度的方案。之前的工作要么存储一个较大的FP32模型以便在不同精度模型之间切换以获得更高的准确率，要么存储一个较小的INT8模型但由于使用共享的量化参数而牺牲准确率。在本文中，我们引入了双舍入量化方法，该方法充分利用量化表示范围来实现近乎无损的位切换，同时通过使用最高整数精度而不是全精度来降低存储需求。此外，我们在一次性联合训练中观察到不同的精度之间存在显著的干扰，主要是由于反向传播时量化尺度的不一致梯度。为了解决这一问题，我们提出了自适应学习率缩放(ALRS)技术，该技术动态适应各种精度的学习率以优化训练过程。此外，我们将双舍入扩展到一次性混合精度训练，并开发了一种 Hessia 意识随机位切换(HASB)策略。ImageNet-1K 分类实验结果表明，我们的方法在多精度和混合精度方面具有优于现有的一次性联合QAT的技术优势。我们还在检测、分割任务以及LLM任务上验证了我们方法的可行性。我们的代码可在 https://github.com/haiduo/Double-Rounding 获取。