LLM2D

摘要

arXiv:2502.09720v1 交叉公告类型：交叉摘要：后训练量化（PTQ）已成为高效部署大规模语言模型（LLMs）的关键技术。本文提出了一种名为NestQuant的新颖PTQ方案，该方案基于自相似嵌套格。近期的工作已经从理论上证明，这种量化器在低精度矩阵乘法中是信息论上最优的。我们基于Gosset格实现了一个实用的低复杂度版本的NestQuant，使其成为任何矩阵乘法步骤（例如，在自我注意、MLP等中）的即插即用量化器。例如，NestQuant将Llama-3-8B的权重、KV缓存和激活量化为4位，实现Wikitext-2上的困惑度为6.6。这与未量化模型（困惑度为6.14）相比，相对于Meta的SpinQuant（困惑度为7.3），困惑度差距减少了55%以上。在各种LLM评估基准上的比较也显示，量化引入的性能下降有所减少。