LLM2D

摘要

大型语言模型 (LLM) 极大地推动了自然语言处理的进步，但其高内存和计算需求阻碍了实际部署。二值化作为一种有效的压缩技术，可以将模型权重缩减至仅 1 位，从而显著降低对计算和内存的高需求。然而，目前的二值化方法难以缩小二值化权重和全精度权重之间的分布差距，同时忽略了 LLM 权重分布中的列偏差。为了解决这些问题，我们提出了 ARB-LLM，这是一种针对 LLM 的新型 1 位训练后量化 (PTQ) 技术。为了缩小二值化权重和全精度权重之间的分布偏移，我们首先设计了一种交替细化二值化 (ARB) 算法，以逐步更新二值化参数，从而显著降低量化误差。此外，考虑到校准数据的关键作用和 LLM 权重中的列偏差，我们进一步将 ARB 扩展到 ARB-X 和 ARB-RC。此外，我们使用列组位图 (CGB) 细化权重划分策略，进一步提高性能。将 ARB-X 和 ARB-RC 配备 CGB，我们分别获得了 ARB-LLM$_\text{X}$ 和 ARB-LLM$_\text{RC}$，它们在 LLM 的最先进 (SOTA) 二值化方法中表现出显著优越性。作为一种二进制 PTQ 方法，我们的 ARB-LLM$_\text{RC}$ 是第一个超过相同大小的 FP16 模型的。代码和模型将在 https://github.com/ZHITENGLI/ARB-LLM 上提供。