摘要
arXiv:2504.05352v1 量化类型: 交叉
摘要: 将大型语言模型(LLMs)量化到1位精度显著降低了计算成本,但现有的量化技术在使用低于4位权重和激活精度(W4A4)时会遭受明显的性能下降。在本文中,我们提出了一种后训练量化框架,配置为W(1+1)A(1*4),其中权重被量化为1位,附加1位用于细粒度分组,激活则通过增加4倍的通道数来量化为1位。对于权重量化,我们提出利用Hessian感知的细粒度分组以及基于EM的量化方案。对于激活量化,我们将INT4量化激活等效地分解为4 * INT1格式,并同时基于量化误差平滑缩放因子,从而进一步减少激活的量化误差。我们的方法在多个任务上超越了W2A4的最新LLM量化基线,将现有LLM量化方法的边界推向完全二值化模型。