摘要
arXiv:2502.02631v1 交叉类型: cross
摘要: 在量化模型大小与准确性的最佳权衡中的最优位宽至今仍存在争议。虽然有些人支持使用4位量化,另一些人则认为1.58位量化能提供更优的结果。然而,缺乏一个统一的框架使得这样的结论相对脆弱。我们提出了ParetoQ,这是首个统一框架,可促进对1位、1.58位、2位、3位和4位量化设置进行严谨的比较。我们的研究发现,在2位和3位之间存在显著的学习过渡:对于3位及以上的量化,微调后的模型保持在原始预训练分布附近,而学习2位及其以下的网络时,表示会发生巨大的变化。通过优化训练方案和改进量化函数,ParetoQ 超越了所有针对特定位宽定制的方法。更为惊人的是,我们的ParetoQ三值600M参数模型在准确率上甚至超越了之前的性能最佳三值3B参数模型,仅使用了五分之一的参数。广泛实验表明,在大小-准确性的权衡中,三值、2位和3位量化保持了可比的性能,并且通常优于4位和二值量化。考虑到硬件限制,2位量化在内存减少和加速方面展现出巨大的潜力。