LLM2D

摘要

arXiv:2502.02631v1 交叉类型: cross 摘要: 在量化模型大小与准确性的最佳权衡中的最优位宽至今仍存在争议。虽然有些人支持使用4位量化，另一些人则认为1.58位量化能提供更优的结果。然而，缺乏一个统一的框架使得这样的结论相对脆弱。我们提出了ParetoQ，这是首个统一框架，可促进对1位、1.58位、2位、3位和4位量化设置进行严谨的比较。我们的研究发现，在2位和3位之间存在显著的学习过渡：对于3位及以上的量化，微调后的模型保持在原始预训练分布附近，而学习2位及其以下的网络时，表示会发生巨大的变化。通过优化训练方案和改进量化函数，ParetoQ 超越了所有针对特定位宽定制的方法。更为惊人的是，我们的ParetoQ三值600M参数模型在准确率上甚至超越了之前的性能最佳三值3B参数模型，仅使用了五分之一的参数。广泛实验表明，在大小-准确性的权衡中，三值、2位和3位量化保持了可比的性能，并且通常优于4位和二值量化。考虑到硬件限制，2位量化在内存减少和加速方面展现出巨大的潜力。