LLM2D
ICQuant: 信道编码实现低比特LLM量化
ICQuant: Index Coding enables Low-bit LLM Quantization
作者: Xinlin Li, Osama Hanna, Christina Fragouli, Suhas Diggavi
发布日期: 5/5/2025
arXiv ID: oai:arXiv.org:2505.00850v1

摘要

arXiv:2505.00850v1 宣告类型: cross 摘要: 大型语言模型(LLMs)的快速部署突显了高效低位宽后训练量化(PTQ)的必要性,因为它们占用大量内存。权重量化中的一个关键挑战是存在异常值,这会扩大量化范围并导致大量错误。虽然已经提出了一些异常值抑制技术,但它们要么未能有效缩小量化范围,要么引入(相寎)较高的位开销。在本文中,我们提出了一种名为ICQuant的新框架,该框架利用异常值统计设计了一种高效的索引编码方案,以实现具有异常值感知能力的权重量化。与需要约1位开销来减半量化范围的现有异常值抑制技术相比,ICQuant只需要约0.3位;在极端压缩情况(例如,每权重2-3位)下,这是一个显著的节省。ICQuant可以在任何现有量化器之上使用,以消除异常值,从而提高量化质量。使用每权重仅为2.3位和简单的标量量化器,ICQuant将2位的Llama3-70B模型的零样本准确度分别提高了130%和150%,并优于QTIP和QuIP#的表现;并且在无需微调的情况下,其性能与目前已知的最佳微调量化器(PV-tuning)相当。