摘要
arXiv:2502.09720v1 交叉公告类型:交叉
摘要:后训练量化(PTQ)已成为高效部署大规模语言模型(LLMs)的关键技术。本文提出了一种名为NestQuant的新颖PTQ方案,该方案基于自相似嵌套格。近期的工作已经从理论上证明,这种量化器在低精度矩阵乘法中是信息论上最优的。我们基于Gosset格实现了一个实用的低复杂度版本的NestQuant,使其成为任何矩阵乘法步骤(例如,在自我注意、MLP等中)的即插即用量化器。例如,NestQuant将Llama-3-8B的权重、KV缓存和激活量化为4位,实现Wikitext-2上的困惑度为6.6。这与未量化模型(困惑度为6.14)相比,相对于Meta的SpinQuant(困惑度为7.3),困惑度差距减少了55%以上。在各种LLM评估基准上的比较也显示,量化引入的性能下降有所减少。