LLM2D
帕罗托Q: 极其低比特LLM量化中的标度规律
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization
作者: Zechun Liu, Changsheng Zhao, Hanxian Huang, Sijia Chen, Jing Zhang, Jiawei Zhao, Scott Roy, Lisa Jin, Yunyang Xiong, Yangyang Shi, Lin Xiao, Yuandong Tian, Bilge Soran, Raghuraman Krishnamoorthi, Tijmen Blankevoort, Vikas Chandra
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02631v1

摘要

arXiv:2502.02631v1 交叉类型: cross 摘要: 在量化模型大小与准确性的最佳权衡中的最优位宽至今仍存在争议。虽然有些人支持使用4位量化,另一些人则认为1.58位量化能提供更优的结果。然而,缺乏一个统一的框架使得这样的结论相对脆弱。我们提出了ParetoQ,这是首个统一框架,可促进对1位、1.58位、2位、3位和4位量化设置进行严谨的比较。我们的研究发现,在2位和3位之间存在显著的学习过渡:对于3位及以上的量化,微调后的模型保持在原始预训练分布附近,而学习2位及其以下的网络时,表示会发生巨大的变化。通过优化训练方案和改进量化函数,ParetoQ 超越了所有针对特定位宽定制的方法。更为惊人的是,我们的ParetoQ三值600M参数模型在准确率上甚至超越了之前的性能最佳三值3B参数模型,仅使用了五分之一的参数。广泛实验表明,在大小-准确性的权衡中,三值、2位和3位量化保持了可比的性能,并且通常优于4位和二值量化。考虑到硬件限制,2位量化在内存减少和加速方面展现出巨大的潜力。