LLM2D

摘要

arXiv:2504.05352v1 量化类型: 交叉摘要: 将大型语言模型（LLMs）量化到1位精度显著降低了计算成本，但现有的量化技术在使用低于4位权重和激活精度（W4A4）时会遭受明显的性能下降。在本文中，我们提出了一种后训练量化框架，配置为W(1+1)A(1*4)，其中权重被量化为1位，附加1位用于细粒度分组，激活则通过增加4倍的通道数来量化为1位。对于权重量化，我们提出利用Hessian感知的细粒度分组以及基于EM的量化方案。对于激活量化，我们将INT4量化激活等效地分解为4 * INT1格式，并同时基于量化误差平滑缩放因子，从而进一步减少激活的量化误差。我们的方法在多个任务上超越了W2A4的最新LLM量化基线，将现有LLM量化方法的边界推向完全二值化模型。