LLM2D

摘要

arXiv:2505.04877v1 工作类型: cross 摘要: 混合精度量化（MPQ）已成为通过确定每层的最佳位宽来优化神经网络的一种必不可少的技术。然而，现有的MPQ方法面临一个重大挑战：它们需要在大规模数据集上进行昂贵的量化策略搜索。为了解决这一问题，我们提出了一种新的方法，首先在小数据集上搜索量化策略，然后将其泛化到大规模数据集。这种新方法简化了过程，消除了大规模量化细调的需要，并只需对模型权重进行调整。我们的方法具有三个关键技术：用于增强量化泛化的尖锐度感知最小化、隐式梯度方向对齐以处理不同优化目标之间的梯度冲突，以及自适应扰动半径以加速优化。理论分析和实验结果均验证了我们的方法。使用CIFAR10数据集（仅为ImageNet训练数据的0.5%大小）进行MPQ策略搜索，在ImageNet上实现了相当的精度，同时计算成本显著降低，并且相比基线方法，效率提高了高达150%。